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内 容 简 介 

随 看 互联 网 的 迅速 肥 展 ， 几 乎 所 有 工具 软件 和 程序 语言 都 文 持 的 正 
则 表达 式 也 变 得 越 来 越 强大 和 易于 使 用 。 本 书 是 讲解 正则 表达 式 的 经 典 
之 作 。 本 书 主要 讲解 了 正则 表达 式 的 特性 和 流派 、 匹 配 原 理 、 优 化 原 
则 、 实 用 诀 穷 以 及 调 校 措施 ， 并 详细 介绍 了 正则 表达 式 在 Perl、 
Java、.NET、PHP 中 的 用 法 。 

本 书目 第 1 版 开始 看 力 于 教会 读者 “以 正则 表达 式 来 思考 *”"， 来 让 读 
者 真正 “精通 ”正则 表达 式 。 该 版 对 PHP 的 相关 内 容 、Javal.5 和 Javal.6 
的 靳 特性 作 了 可 观 的 扩充 讲解 。 任 何 有 机 会 使 用 正则 表达 式 的 读者 部 会 
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IT 产业 新 技术 日 新 月 异 ， 令 人 目不暇接 ， 然 而 在 这 其 中 ， 真 正 能 称 
得 上 伟大 的 东西 却 穴 窗 无 几 。1998 年 ， 被 玲 为 “软件 世界 的 爱迪生 ”， 人 发 
明了 BSD、TCP/IP、csh、vVvi 和 NFS 的 SUN 首 席 科学 家 Bill Joy 曾 经 不 无 调 
侃 地 说 ， 在 计算 机 体系 结构 领域 里 ， 绥 存 是 唯一 能 称 得 上 伟大 的 思想 ， 
其 他 的 一 切 发 明和 技术 不 过 是 在 不 同 场景 下 应 用 这 一 思想 而 已 。 在 计算 
机 软件 领域 里 ， 情 形 也 大 体 相 似 。 如 果 罗 列 这 个 领域 中 的 伟大 发 明 ， 我 
相信 绝 不 会 超过 二 十 项 。 在 这 个 名 单 当 中 ， 当 然 应 该 包括 分 组 交换 网 
络 、Web、Lisp、 哈 希 算法 、UNIX、 编 译 技术 、 关 系 模 型 、 面 向 对 象 、 
XML 这 些 大 名 刚 易 的 家 伙 ， 而 正则 表达 陈 也 绝对 不 应 该 被 漏 摊 。 正 则 
表达 式 具 有 伟大 技术 发 明 的 一 切 特点 ， 它 简单 、 优 美 、 功 能 强大 、 妙 用 
无 穷 。 对 于 很 多 实际 工作 来 讲 ， 正 则 表达 式 人 简直 是 灵 凡 妙药 ， 能 够 成 白 
倍 地 提高 开发 效率 和 程序 质量 。CSDN 的 创始 人 薄 涛 先生 在 早年 开发 专 
业 软 件 产 品 时 ， 就 曾经 体验 过 这 一 工具 的 巨大 威力 ， 并 且 一 直 印 象 深 
肇 。 而 我 的 一 位 从 事 网 络 编辑 工作 的 朋友 ， 最 近 也 领略 了 正则 表达 式 的 
威力 一 一 他 用 Perl 开 发 了 一 个 不 足 20 行 的 小 程序 ， 使 用 正则 表达 式 将 一 
项 原本 每 天 耗 用 10 人 时 的 工作 在 一 分 钟 之 内 目 动 完成 。 而 正则 表达 式 在 
生物 信息 学 和 人 类 基因 图 说 的 研究 中 所 友 挥 的 天 键 作用 ， 更 是 被 传 为 佳 
话 。 无 论 对 于 软件 开发 者 ， 还 是 从 事 其 他 知识 工作 的 专业 人 士 ， 正 则 表 
达 式 都 是 最 有 利 的 工 上 其 之 一 。 

所 谓 正 则 表达 式 ， 束 是 一 种 描述 字符 串 结构 模式 的 形式 化 表达 方 
法 。 在 发 展 的 初期 ， 这 套 方 法 仅 限 于 描述 正则 文本 ， 故 此 得 名 “正则 表 
达 式 (regular expression) ”。 随 看 正则 表达 式 研究 的 深入 和 友 展 ， 特 别 
是 Perl 语言 的 实践 和 探索 ， 正 则 表达 式 的 能 力 已 经 大 大 突破 了 传统 的 、 
数学 上 的 限制 ， 成 为 威力 巨大 的 实用 工具 ， 在 几乎 所 有 主流 语言 中 获得 
文 持 。 为 什么 正则 表达 式 具 有 如 此 巨大 的 魅力 ? 一 方面 ， 因 为 正则 表达 
式 处 理 的 对 象 是 字符 串 ， 或 者 抽象 地 说 ， 是 一 个 对 象 序列 ， 而 这 恰恰 是 
当今 计算 机 体系 的 本 质数 据 结构 ， 我 们 围 经 计算 机 所 做 的 大 多 数 工 作 ， 
都 归结 为 在 这 个 序列 上 的 操作 ， 因 此 ， 正 则 表达 式 用 途 广阔 。 男 一 方 
面 ， 与 大 多 数 其 他 技术 不 同 ， 正 则 表达 式 其 有 超 强 的 结构 描述 能 力 ， 而 
在 计算 机 中 ， 正 是 不 同 的 结构 把 无 差别 的 字 节 组 织 成 干 差 万 别 的 软件 对 
象 ， 再 组 合成 为 无 所 不 能 的 软件 系统 ， 因 此 ， 描 述 了 结构 ， 就 等 于 描述 
了 系统 。 在 这 方面 ， 正 则 表达 式 的 地 位 是 独特 的 。 正 因为 这 两 点 ， 在 现 





在 的 软件 开发 和 日 常数 据 处 理工 作 中 ， 正 则 表达 式 已 经 成 为 必 不 可 少 的 
工具 。 如 果 一 个 开发 工具 不 支持 正则 表达 式 ， 那 它 就 会 被 视 为 玩具 语 
言 ， 如 果 一 个 编辑 器 不 支持 正则 表达 式 ， 那 它 就 会 被 成 为 阳春 应 用 。 连 
人 们 原本 并 不 指望 应 用 正则 表达 式 的 商用 数据 库 ， 各 家 厂商 也 竞相 以 支 
持 正则 表达 式 为 卖点 。 正 则 表达 式 的 声势 之 隆 ， 是 姓 庸 置疑 的 。 

非常 奇怪 的 是 ， 这 样 一 个 了 不 起 的 技术 ， 在 我 国 却 并 没有 得 到 充分 
推广 。 以 其 价值 而 言 ， 正 则 表达 式 不 但 值得 每 一 个 专业 程序 员 掌 握 ， 而 
且 值 得 所 有 知识 工作 者 去 了 解 。 然 而 现实 情况 是 ， 不 但 一 般 知识 工作 者 
大 多 闻所未闻 ， 很 多 专业 程序 员 也 视 之 为 长 途 。 为 什么 会 出 现 这 种 情况 
呢 ? 原因 有 二 。 其 一 ， 正 则 表达 式 产生 和 发 展 在 UNIX 文化 体系 之 中 ， 
而 我 国 软件 开发 社 群 的 知识 结构 长 期 受到 微软 的 决定 ，UNIX 文 化 影响 
甚 微 。 在 2002 年 推出 ,NET 平台 之 前 ， 微 软 在 其 各 项 主流 平台 、 产 品 与 开 
发 工具 当中 ， 均 未 对 正则 表达 式 给 予 足 够 的 重视 ， 相 应 地 ， 我 们 的 开发 
者 们 对 正则 表达 式 也 就 知之 不 多 。 第 二 ， 也 是 更 重要 的 原因 ， 就 是 正则 
表达 式 并 不 是 那么 好 掌握 的 ， 在 通 向 驾驭 正则 表达 式 强 大 力量 的 道路 
上 ， 还 是 有 那么 几 只 拦路 虎 的 ， 而 要 打 虎 过 岗 ， 不 但 要 花 点 功夫 ， 还 要 
有 正确 的 方法 。 

学 习 正则 表达 式 ， 入 门 不 难 ， 看 一 些 例 子 ， 试 着 模仿 模仿 ， 就 可 以 
粗 通 ， 并 且 在 工作 中 解决 不 少 问题 。 然 而 大 部 分 学 习 者 也 就 就 此 止步 ， 
他 们 对 自己 说 : “正则 表达 式 不 过 如 此 ， 我 就 学 到 这 里 了 ， 以 后 现 用 现 
学 就 行 了 。” 他 们 以 为 自己 可 以 像 学 习 其 他 技术 一 样 ， 在 实践 中 逐渐 提 
高 正则 表达 式 的 应 用 水 平 。 然 而 事实 上 ， 正 则 表达 式 并 不 是 每 天 都 会 用 
到 ， 而 其 密码 般 的 形象 ， 随 着 时 间 的 推移 很 容易 被 忘记 ， 所 以 经 常 发 生 
的 情况 是 ， 开 发 者 对 于 正则 表达 式 的 记忆 迅速 消 褪 ， 每 次 遇 到 新 的 问 
题 ， 都 要 查 资料 ， 重 新 唤 回 记忆 ， 对 于 稍微 复杂 一 点 的 问题 ， 只 好 求助 
于 现成 的 解决 方案 。 反 反复 复 ， 长 期 如 此 ， 不 但 应 用 水 平 难以 明显 提 
升 ， 而 且 会 对 这 项 技术 逐渐 产生 一 定 的 恐惧 感 和 厌烦 情绪 。 这 还 只 是 应 
用 阶段 ， 正 则 表达 式 应 用 的 高 级 阶段 ， 要 求 开发 者 还 必须 充分 理解 正则 
表达 式 的 能 力 范围 ， 能 够 将 一 些 正则 表达 式 技术 组 合 应 用 ， 达 成 超 平一 
般 想像 的 效果 。 为 了 高 效 、 正 确 地 解决 实际 问题 ， 有 的 时 候 甚至 要 求 深 
入 理解 正则 表达 式 的 原理 ， 甚 至 对 于 如 何 实现 正则 表达 式 引 擎 都 要 有 所 
了 解 ， 在 此 基础 上， 规避 陷阱 ， 优 化 设计 ， 提 高 程序 执行 效率 。 要 达到 
这 样 的 程度 ， 不 经 过 系统 的 学 习 是 不 可 能 的 。 

系统 学 习 正 则 表达 式 并 不 是 一 件 容易 的 事情 ， 仅 仅 通过 阅读 一 
HOW TO* 的 快餐 式 文章 是 不 行 的， 必须 有 更 完整 、 更 系统 的 资料 指 
导 学 习 。 如 果 你 在 国外 技术 社区 里 询问 如 何 才能 系统 学 习 正 则 表达 式 ， 
几乎 所 有 的 领域 专家 都 会 向 你 推荐 一 本 书 一 Jeffrey Friedl 的 《精通 正 





则 表达 式 》， 也 了 束 是 本 书 。 

这 本 《精通 正则 表达 陈 》 和 是 系统 学 习 正 则 表达 却 的 唯一 最 权威 者 
作 。 可 以 说 ， 在 今天 ， 如 果 想 理解 和 掌握 正则 表达 式 ， 想 要 建立 关于 这 
一 扩 术 的 完整 概念 体系 ， 想 充分 及 挥 其 巨大 能 量 ， 这 本 书 几 乎 是 无 法 纸 
开 的 必 经 之 路 。 甚 至 可 以 说 ， 如 果 你 没有 读 过 这 本 书 ， 那 么 你 对 于 正则 
表达 却 的 理解 和 应 用 能 力 一 定 达 不 到 升 笔 入 宇 的 程度 。 本 书 第 1 版 出 版 
于 十 年 之 前 ， 目 姥 时 起 它 束 成 为 正则 表达 式 领 域 最 全 面 、 最 受 欢 迎 的 代 
表 普 作 ， 数 以 万 计 的 读者 退 过 这 本 书 尝 握 了 正则 表达 式 ， 成 为 行家 里 
手 。 在 任何 时 候 ， 任 何 地 方 ， 只 要 所 a 到 正则 表达 式 者 作 ， 人 们 部 会 所 到 
这 本 书 。 这 本 书 的 质量 之 高 ， 声 营 之 局 ， 使 得 几乎 没有 人 企图 挑 成 它 的 
地 位 ， 从 而 在 正则 表达 式 图 书 领域 形成 独特 的 “一 夫 当 天 ”的 局 面 ， 称 其 
为 正则 表达 式 圣 经 ， 绝 对 当之无愧 。 

为 什么 这 本 书 能 够 表现 得 如 此 出 色 ? 我 认为 这 其 中 有 三 个 原因 。 其 
一 ， 作 者 本 人 上 共有 多 午 程 序 开 友 经 验 ， 理 论 基 础 深厚 ， 实 战 经 验 丰 是， 
对 正则 表达 式 这 个 主题 透彻 理解 ， 因 此 在 技术 上 得 心 应 手 ， 压 气 十 足 ， 
对 于 技术 上 的 难点 不 回避 、 不 人 台 糊 。 作 者 高 超 的 拉 术 水 平 是 本 书 质量 的 
otk. KZ, VERE, AMAA, HIES. IEW AIK 
式 根 植 于 数学 理论 ， 却 义 能 在 日 剃 俗 事 上 友 挥 已 大 的 效用 。 写 这 种 类 型 
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的 读者 不 是 计算 机 科学 家 ， 但 也 不 是 满足 于 “ 知 其 然而 不 知 其 所 以 然 ” 的 
快餐 去 代码 小 子 ， 而 是 具有 一 定理 论 系 养 ， 却 义 始 终 以 实践 为 本 的 专业 
开发 者 。 他 们 需要 的 是 面向 实践 的 理论 和 思想 ， 是 实 实在 在 的 实战 能 
力 ， 只 有 满足 这 种 需要 ， 才 能 够 上 正 打 动 读者 。 通 谈 此 书 ， 可 以 说 作者 
对 这 一 路 线 的 把 握 十 分 成 功 ， 你 证 了 了 内容 大 方 同 的 正确 。 其 三 ， 这 本 书 
的 写法 独具匠心， 堪 称 典范 。 拉 术 图 书 的 主要 使 命 是 传播 专业 知识 。 而 
专业 知识 分 为 框 染 性 知识 和 其 体 知识 。 框 染 性 知识 需要 通过 系统 的 阅读 
和 学 习 等 握 ， 而 大 量 的 具体 知识 ， 则 主要 通过 日 党 工作 的 积 素 以 及 随 用 
随 合 的 的 学 习 来 逐 潮 填充 起 来 。 本 书 前 六 间 ， 以 顺序 式 记述 的 方式 ， 将 
正则 表达 式 的 系统 知识 九 九 道 来 ， 读 者 像 看 故事 书 似 的 束 建 立 起 整个 正 
则 表达 式 的 基本 知识 体系 。 而 后 面 的 内 容 ， 则 是 方便 实际 开 友 中 频 友 合 
六 之 用 ， 包 括 各 大 主流 语言 对 正则 表达 式 的 支持 细 广 ， 包 含有 大 量 条 
例 。 这 样 的 写法 ， 完 全 人 符合 一 般 人 学 习 的 特点 ， 因 此 书 读 起 来 非 第 慨 
意 ， 非 第 有 趣 ， 用 的 时 候 合 起 来 义 非 党 方 便 。 这 样 的 短 述 风格 ， 实 在 值 
得 学 习 。 

读者 可 以 在 没有 任何 正则 表达 式 的 基础 上 开始 阅读 此 书 ， 只 要 惑 动 
脑 ， 加 强 理解 ， 适 当 动 手 练习 ， 将 能 够 在 个 长 的 时 间 里 掌握 正则 表达 式 


的 思想 和 技术 精华 ， 这 一 点 已 经 被 很 多 人 验证 过 ， 我 本 人 也 是 这 本 书 的 
受益 者 之 一 。 正 因为 这 本 书 独一无二 的 地 位 和 高 度 的 可 读 性 ， 也 因为 正 
则 表达 式 作为 一 项 了 不 起 的 技术 发 明 所 具有 的 巨大 威力 ， 我 非常 希望 更 
多 的 读者 能 够 通过 认真 地 学 习 本 书 而 掌握 这 一 强大 技术 ， 并 享受 这 项 技 
术 带 来 的 快乐 

ei 
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《精通 正则 表达 式 “〈 第 3 版 ) 》 〈 即 Mastering Regular Expression, 
3rd Edition) 是 一 本 好 书 。 

我 还 记得 ， 目 己 刚 开始 工作 时 ， 吏 遇 到 了 关于 正则 表达 式 的 问题 
CME eo Eee) : 石 从 文本 中 抽取 E-mail 地 址 ， 还 可 以 用 字符 串 来 
AER EMIO, Aa AmA) ， 厂 要 抽取 URL， 人 简单 的 文本 但 
REENIJ. ESR- ERREZ, MHAM: “oH EK 
AN, AM ERASE. HR Raa, RRR SA Aer 
Wise 4 FATE MIATA SUN BE, SPST EW Sjava.utiLregex CT AGH AY 
Java) WARKA. THA SEK, RNase, MSIL, Alar, 
RRA, HH. 

此 后 ， 用 到 正则 表达 式 的 地 方 越 来 越 多 ， 我 也 越 来 越 感 党 到 和 它 的 重 
有 要， 然而 使 用 起 来 却 总 感觉 捉 宰 见 肘 。 当 时 是 和 夏天， 北京 非 章 热 ， 我 决 
定 下 班 之 后 不 再 看 急 赶 车 回 家 ， 而 是 在 公司 安心 看 看 技术 文档 ， 于 是 迁 
后 了 这 本 Mastering Regular Expression。 该 书 原文 是 相当 通畅 易 懂 的 ， 看 
TCE BA HE SETA ILRI TA], Za EAR ZS LA, eR ATT BA 
ERERKEN, Fear, SAARE. 
ta Pee FA TE MTA SEA AIT AL SS, TR ee BA 
APRA, AAS A A BR EEEE Bel ASI I. 
Wy. THIER eA Zi py Beet ASB, ALA PY Ene A EURIA SRR EEE 
BARA Ta. FUN AMES SR 〈Tinyfool， 了 昵称 Tiny) 曾 问 过 我 这 样 一 
个 正则 表达 去 的 问题 : 在 Apache 服 务 右 的 Rewrite 规 则 中 ， 怎 样 以 一 个 
正则 表达 式 匹 配 “ 除 两 个 特定 子 域名 之 外 的 所 有 其 他 子 域 名 ， 其 他 人 的 
办 法 都 无 法 满足 要 求 : 要 么 只 能 罗 配 这 两 个 特定 的 子 域名 ， 要 么 必须 依 
赖 程 序 分 文才 能 进行 判断 。 其 实 这 个 问题 ， 是 可 以 用 一 个 正则 表达 式 允 
配 的 。 事 后 ，Tiny 说 ， 看 来 ， 会 用 正则 的 人 很 多 ， 但 真正 恒 得 正则 的 人 
很 少 。 现 实情 况 也 确实 如 些 ， 束 我 所 见 ， 不 少 同仁 对 正则 表达 式 的 运 
FAA, KBE EE NAAT, BAA CIR +, (Ax Bix 
该 用 几 个 反 和 斜 线 转 义 ， 转 义 是 在 字符 串 级 别人 还 是 表达 陈 级 别 进行 的 ， 捕 
获 型 括号 是 合 必 须 ， 表 达 陈 的 效率 如 何 ， 等 等 问题 ， 往 往 都 是 一 知 半 
解 ， 甚 至 坚 无 概念 ， 在 Tiny 的 问题 面前 ， 更 是 束手无策 ， 一 筹 砚 展 。 

束 我 个 人 来 说 ， 我 所 苞 握 的 正则 表达 式 的 知识 ， 绝 大 多 数 来 自 本 
书 。 正 古 依 徘 这 些 和 知识， 我 几乎 能 以 正则 表达 式 进 行 目 己 期 望 的 任何 文 
本 处 理 ， 所 以 我 相信 ， 能 够 耐心 恋 完 这 本 书 的 读者 ， 一 定 能 深入 正则 表 





达 式 的 世界 ， 右 再 加 以 练习 和 思考 ， 碌 能 熟练 地 依 菲 它 解 决 各 种 复 林 的 
问题 (其 中 就 包括 类 似 Tiny 的 问题 ) 了。 

EE, WIEKE (Virushuo〉 的 介绍 ， 我 参加 了 博文 视点 的 试 详 活 
动 ， 很 对 运 地 获得 了 翻 详 本 书 的 机 会 。 有 机 会 与 大 家 分 孚 这 样 一 本 好 
书 ， 我 深 感 采 驻 。500 多 页 的 书 ， 拖 拖拉 拉 ， 也 花 了 半年 多 的 时 间 。 叶 
然 之 前 读 过 原 着 ， 积 罕 了 一 些 运用 正则 表达 式 的 经 验 ， 也 翻 详 过 数 十 万 
字 的 资料 ， 但 要 尽 可 能 准确 、 贴 切 地 传达 原文 的 阅读 感觉 ， 我 仍 感 烦 费 
心力 。 部 分 译文 在 确认 理解 原文 的 基础 上 上， 要 以 符合 中 文 习惯 的 方式 加 
以 表述 仍然 碳 旨 周折 例如 ， 直 详 的 “正则 表达 式 确 实 容 许 出 现 这 种 错 
TR”, 原文 的 意思 是 “这 样 的 错 府 超出 了 正则 表达 式 的 能 力 ”， 最 后 修改 
为 “出现 这 样 的 错误 ， 不 能 怪 正 则 表达 陈 ? 或 "这 样 的 问题 ， 儿 不 在 正则 
表达 式 ”) 。 男 有 部 分 词语 ， 昌 可 详 为 中 文 ， 但 为 你 证 阅读 的 流畅 ， 没 
有 翻 详 《〈《 例 如 ,“ 它 包含 特殊 和 一 般 两 个 部 分 ， 特 殊 部 分 之 所 以 是 特殊 
的 ， 原 因 在 于 ..………..”， 此 处 special 和 normal 是 专 指 ， 故 翻译 为 “ 它 包 含 
special ”和 normal 两 个 部 分 ，special ”部 分 之 所 以 得 名 ， 原 因 在 
Poi 7), KERA, HENNE REA AY SA 

在 本 书 翻译 结 束 之 际 ， 我 首先 要 感谢 堆 炬 ， 他 的 引 存 让 我 获得 了 翻 
译 这 本 书 的 机 会 ; 还 要 感谢 博文 视点 的 周 物 老 师 ， 她 译 屠 严格 的 工作 态 
上 度 ， 时 刻 提 醒 我 不 能 马 席 对 竺 这 本 经 典 之 作 ; 还 有 本 书 的 贡 编 晓 菲 ， 她 
为 本 书 的 编辑 和 校对 做 了 大 量 细致 而 深入 的 工作 。 

矿 外 我 还 要 感谢 东北 师范 大 学 文学 院 的 王 硝 老师 ， 在 我 求学 期 间 ， 
王 老 师 给 予 我 诸多 指点 ， 离 校 时 间 全 长， 您 是 怀念 和 庆 和 圣 那 段 经 历 ， 可 
以 说 ， 没 有 与 他 的 相识 ， 便 没有 我 的 今天 。 

翻译 过 程 中 ， 我 虽 力 求 把 握 原 文 ， 语 言明 畅 ， 但 翻 详 中 的 错误 或 许 
是 在 所 难免 的 ， 对 此 本 人 愿 负 全 部 贡 任 。 项 望 广大 读者 发 现 错 误 能 及 时 
与 我 和 出 版 社 联系 以 便 重 印 时 修正 ， 或 是 以 勤 误 的 形式 公布 出 来 以 惠及 
其 他 读者 。 如 末 读 者 有 任何 想法 或 建议 ， 欢 迎 给 我 写 信 ， 我 的 邮件 地 址 
je: yusheng.regex@gmail.com. 

如 今 正 则 表达 式 已 经 成 为 几乎 所 有 主流 编程 语言 中 的 必 备 元 系 : 
Java、Perl、Python、PHP、Ruby...... 莫 不 如 此 ， 甚 至 功能 稍 强 大 一 些 
的 文本 编辑 工具 ， 都 文 持 正则 表达 式 。 盛 其 是 在 Web 兴起 之 后 ， 开 友 作 
务 中 的 一 大 部 分 甚至 全 部 ， 都 是 对 字符 串 的 处 理 。 相 比 徐 单 的 字符 串 比 
较 、 但 找 、 茶 换 ， 正 则 表达 式 提 供 了 强大 得 多 的 处 理 能 力 〈 最 午 要 的 
是 ， 它 能 够 处 理 “ 和 从 合 菜 种 抽象 模式 ”的 字符 串 ， 而 不 是 固化 的 、 具 体 的 
FIFE) 。 熟 练 运用 它们 ， 能 够 方 省 大 量 的 开 友 时 间 ， 甚 至 解决 一 些 之 


前 看 来 是 mission impossible 的 问题 。 


本 书 是 讲解 正则 表达 式 的 经 典 之 作 。 其 他 介绍 正则 表达 式 的 资料 ， 
往往 局 限于 具体 的 语法 和 函数 的 讲解 ， 于 语法 细节 处 看 苇 太 多 ， 忽 略 了 
正则 表达 式 本 里 。 这 样 ， 斌 者 虽然 对 关于 正则 表达 式 的 具体 规定 有 所 了 
解 ， 但 终究 是 只 见 树 木 不 见 森 林 ， 过 上 复杂 有 的 情况 ， 人 往往 束 手 无 倘 ， 举 
步 维 艰 。 而 本 书目 第 1 版 开始 便 大 力 于 教会 读者 “以 正则 表达 式 来 思考 
(think regular expression) ”， 同 读 者 讲授 正则 表达 式 的 精 侨 (正则 表达 
式 的 各 种 流派 、 逻 配 原 理 、 优 化 原则 ， 等 等 ) ， 而 不 拘泥 于 其 体 的 规定 
和 形式 。 了 人 解 这 些 精髓 ， 再 辅 以 其 体操 作 的 文档 ， 读 者 便 可 做 a 到 “胸中 
GER, PSU tH”; 即便 问题 无 法 以 正则 表达 式 来 解决 ， 访 者 也 能 
(RE FIT, MND Ee A sil, Fest LK. 

不 了 解 正 则 表达 陈 的 旋 者 ， 可 循序 渐进 ， 依 次 阅读 各 章 ， 即 便 之 前 
完全 未 接触 过 正则 表达 式 ， 读 过 前 两 革 ， 也 能 在 心中 搬 绘 出 概略 的 图 
说 。 第 3、4、5、6 章 是 本 书 的 重点 ， 也 是 核心 价值 所 在 ， 它 们 分 别 介 绍 
了 正则 表达 式 的 特性 和 流派 、[ 匹 配 原 理 、 实 用 雇 守 以 及 调 校 措施 。 这 样 
的 知识 与 具体 语言 无 大， 适用 于 几乎 所 有 的 语言 和 工具 《当然 ， 如 采 使 
用 DFA 引 人 擎 ,第 6 章 的 价值 要 打 些 折扣 ) ， 所 请 “大 象 无 形 ”， 便 是 如 
些 。 读 者 如 能 仔细 研读 ， 炙 心 损 靡 ， 之 后 解决 各 种 问题 时 ， 必 定 获 益 菲 
浅 。 第 7、8、9、10 章 分 别 讲解 了 Perll、Java、.NET、PHP 中 正则 表达 式 
的 用 法 ， 看 来 类 似 参 考 手 册 ， 其 实 是 对 前 面 4 半 知 识 的 包装 ， 将 抽象 的 
知识 辅 以 其 体 的 语言 规定 ， 以 其 体 的 形式 表现 出 来 。 所 以 ， 心 急 的 讯 
者 ， 在 阅读 这 些 章节 之 有 前， 最 好 先 退 读 第 3、4、5、6 半 ， 以 便 更 好 地 理 
解 其 中 的 包 辑 和 思路 。 

Aa YA SCA BNI, ERAS RABIN i. AMBRE ILR 
Bl TEM ATA SVB AS ABR ESL REE, PR RBABTAR A S fA eA SL. I 
Ac. SIERRA, AMSER, pe apm MC ray OCH ERAN, P 
速 地 解决 工作 中 的 各 种 问题 。 
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博文 视点 的 张 春 雨 编辑 告诉 我 ， 八 次 印刷 的 《精通 正则 表达 陈 〈 第 
3 版 〉》 己 经 全 部 售 蕊 了 ，O’Reilly 与 电子 工业 出 版 社 续签 了 版 权 合同 ， 
准备 重新 上 市 ， 让 我 写 一 点 东西 。 

该 与 什么 好 呢 ? 

2007 午 《精通 》 上 市 时 ， 我 还 在 中 天 村 ， 天 气 好 的 时 低 可 以 望 见 敬 
和 园 的 佛 香 阁 ; 而 现在 ， 窗 外 景色 己 经 换 成 了 珠江 边 的 小 槛 腰 : 对 正则 
表达 式 的 使 用 ， 也 从 随手 拓 来 变 得 生 芷 一 一 许多 问题 需要 翻 奋 《 精 
通 》， 翻 查 自 己 写 的 《正则 指引 》 。 究 其 原因 ， 与 正则 表达 式 直 接 相 关 
的 开发 做 得 少 了 ， 调 话说 “ 勒 则 立 ， 嬉 则 殉 ”， 残 是 这 个 道理 。 

mÆ S, PALM. BAHREN mAAR, BERII 
E, EA A LAE ABE ERARE R, AEE. ESL, BAF 
上 生 琉 了 了， 心里 其 实 没 有 态 记 ， 而 这 一 切 ， 归 源 都 是 之 前 死 哺 过 《 精 
通 》 的 绿 故 。 

在 疯 谈 《精通 》 之 前 ， 我 已 经 租 岗 了 网 上 的 不 少 资 料 ， 对 正则 表达 
式 有 了 基本 了 解 ， 能 像 模 像样 地 解决 一 些 实 际 问题 ， 可 算 “ 够 用 了。 这 
时 候 过 见 《 精 通 》 这 样 “现实 价值 不 那么 大 ”的 书 ， 能 前 下心 去 阅读 ， 其 
Seay AERA ARES, REPARE lee. PUA, ies SPO AC 
原理 这 类 看 来 没 多 少 实 用 价值 的 知识 ， 还 会 愿意 花 时 间 去 揪 麻 、 研 习 。 
回头 想 想 ， 也 正 是 因为 当时 有 这 种 傻 气 ， 可 算是 意外 的 收 获 : 工作 中 经 
利 需 要 学 习 一 些 工具 和 原理 ， 虽 然 当 时 也 “学 会 > 了， 但 不 人 束 筷 个 精 
光 ; 相 比 之 下 ， 正 则 表达 式 却 是 学 到 了 “不 会 扎 ” 的 程度 。 更 典型 的 例子 
古 洲 汶 ， 几 乎 人 人 都 可 以 做 到 “一 绷 和 学 会 ， 终 映 不 筷 ”。 同 样 是 “学 会 ” 
JITA FEB IX A KE? 

这 个 问题 我 想 了 很 和信， 最 后 的 答 采 是 ,，“ 学 会 ”的 定义 古 不 同 的 。 

通常 我 们 说 “学 会 ”了 菜 项 技术 、 菜 门 语 言 ， 意 岂 是 “凑合 能 用 ”， 或 
者 说 “可 以 对 照 文 档 (Google) 解雇 问题 ”的 程度 你 用 Python 解 决 了 
一 个 问题 ， 就 说 明 你 “学 会 ”> 了 Python， 哪 管 是 步 步 Google， 还 是 照抄 现 
成 的 代码 。 而 我 们 说 “学 会 ”了 游泳 ， 意 思 是 可 以 在 水 里 行动 而 不 沉 下 
去 ， 更 重要 的 是 在 游 永 时 不 需要 时 刻 育 谓 各 种 口误: 吸 气 一 伸手 一 划 水 
一 足 腿 一 抬头 一 呼 气 ..….... ， 如 果 你 在 六 池 里 必须 齐 记 口 记 ， 是 绝对 谈 不 
上 “学 会 ”的 。 








PAE IRAP eee, SSR AI Se A SS” eA 
E, RP ER ee I”, PAR ABA DRA A el el, (ER 
种 “学 会 ?到 达 第 二 种 “学 会 >”， 其 实 需 要 经 历 漫 长 的 过 程 。 而 且 ， 两 
种 “学 会 ”都 能 解决 问题 ， 所 以 在 达到 第 二 种 “学 会 ”的 漫长 过 程 中 ， 你 很 
可 能 感觉 不 到 目 己 的 进步 ， 反 而 会 困惑 继续 学 习 的 意义 力 至 放弃 既 
Cn 
WE 。 

对 我 来 说 ， 第 二 种 “学 会 ”的 好 处 是 显而易见 的 ， 最 午 要 的 一 点 就 是 
不 会 态 记 一 一 学 习 的 时 间 增 长 一 倍 ， 遗 在 的 难 展 将 会 增加 十 倍 、 三 十 倍 
HAA. EER, BLE STASIS: 有 人 每 次 用 到 正则 
表达 式 都 会 抓 薄 ， 都 要 四 处 极力 搜索 、 反 复 言 目 答 试 ， 花 很 长 时 间 才 能 
eth. SIRDIR: 另 一 方面 ， 他 们 又 不 愿意 伦 时 间 淤 心 学 习 《 精 
w) PENA. ALAN RRS, BARR SS, MAIR SRE 
Ele 

许多 人 不 愿意 专门 花 时 间 来 学 习 正 则 表达 式 ， 是 认为 它 属于 奇 技 淫 
巧 ， 并 非 工 作 必 须 。 但 这 理由 是 不 成 立 的 : 我 们 大 部 分 人 不 是 作家 ， 但 
为 了 在 需要 的 时 候 写 得 出 文章 ， 还 是 必须 专门 伦 时 间 来 练习 写作 。 而 
且 ， 专 门 花 时 间 来 学 习 “ 非 必要 ”的 技能 ， 以 后 往往 能 有 是 想 不 到 的 收 
ee ee ener ene E Se RE 


_— 





在 翻译 《精通 》 时 ， 为 了 省却 重 新 编排 索引 的 厂 烦 ， 需 要 做 到 中 瑞 
文 碑 页 页 对 应 ， 于 是 我 专门 学 习 了 候 捷 老师 与 的 《Word FERAA) , 
并 有 昌 杀 手 尝 试 了 每 个 例子 ， 记 邵 了 有 关 的 概念 和 术语 ， 从 此 学会 了 运用 
格式 和 样式 的 角度 定义 文 要 ， 再 不 用 为 格式 之 类 的 问题 烦恼 。 这 些 年 
来 ， 虽 然 用 得 并 不 多 ， 却 没有 环 记 。 去 年 写作 《正则 指引 》 时 ， 我 事先 
a ee eee 等， 交 稳 时 市 省 了 目 己 和 出 版 社 大 量 
J ERY TAY 

男 一 个 例子 仍然 与 正则 表达 式 有 关 。 去 年 ， 为 了 写作 《正则 指引 》 
中 Unicode 的 革 太 ， 我 专门 伦 了 时 间 研 读 Unicode 规 疙 ， 里 然 最 终 《 指 
引 》 中 没有 列 出 学 到 的 全 部 知识 ， 但 我 对 Unicode 的 理解 已 经 不 再 限 
于 “在 程序 中 设 定 Unicode 编码 妈 可”。 前 儿 天 ， 有 位 同事 过 到 Unicode 
FFA (U+00C4) 无 法 打印 的 问题 ， 于 是 我 建议 他 使 用 A 和 *(U+0041 
和 U+0308) 的 两 个 Unicode 字 人 符 来 表示 《按照 Unicode 规 范 ， 两 个 字符 可 
以 “组 合 ” 成 一 个 字符 )， 果 然 解决 了 问题 。 这 有 段 经 历 再 次 证 明 ， 真 的 学 
oS, MEWA To 

亚 里 士 多 德 曾 说 : “PRm. Mehet RERI EEN TE 


等 竺 期 望 的 结束 。?” 然 而 很 多 时 候 ， 虽 然 我 们 以 为 目 己 可 以 解雇 ， 但 是 
之 前 学 过 的 拉 能 已 经 遗志 ， 于 是 施展 起 来 步履 沉重 、 举 步 维 艰 ， 节 后 只 
Horne Jae ak, BAe. MR, WRG BY 
AeA AIL se, FRIAS ISIN, BAA Reset. WRAL 
J A OO DUE AeA se te, AWG NGXA PIP Ya 
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第 1 章 正则 表达 式 入 门 
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作为 编程 语言 的 正则 表达 式 


DIS Mae EL 
以 语言 做 类 比 
TE MU RIX TE OY E ZE NE AE 
对 于 有 部 分 经 验 的 读 
TA CASTE: Egre 
Egrep 元 字符 
行 的 起 始 和 结束 
op gE 从 
A UNE 
单词 分 界 符 
选项 元 又 
其 他 量词 : 复出 现 
= 5 eral FA 
和 
基础 知识 拓展 
IE MIRIA TEH 水 
BN Vl 


正则 表达 式 术 语汇 总 
改进 现状 
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Preface 

本 书 关 注 的 是 一 种 强大 的 工具 一 一 “正则 表达 式 *”。 它 将 教会 读者 如 
何 使 用 正则 表达 式 解 决 各 种 问题 ， 以 及 如 何 元 分 使 用 支持 正则 表达 式 的 
工具 和 语言 。 许 多 大 于 正则 表达 式 的 文档 者 没有 介绍 这 种 工具 的 能 力 ， 
而 本 书 的 目的 正 古 让 读者 “精通 ”正则 表达 式 。 

许多 种 工具 都 文 持 正则 表达 式 〈( 文 本 编辑 如 、 文 字 处 理 软件 、 系 统 
工具 、 数 据 库 引 擎 ， 等 等 ) ， 不 过 ， 要 想 元 分 挖掘 正则 表达 式 的 能 
还 是 应 当 将 它 作 为 编程 语言 的 一 部 分 。 例 如 Java、JScript、Visual 
Basic. VBScript. JavaScript. ECMAScript. C~ C++, CH., elisp, 
Perl、Python、Tcl、Ruby、PHP、sed 和 awk。 事 实 上， 在 一 些 用 上 述 语 
言 编 写 的 程序 中 ， 正 则 表达 式 扮 滨 了 极其 重要 的 角色 。 

正则 表达 式 能 够 得 到 众多 语言 和 工具 的 支持 是 有 原因 的 : 它们 极其 
有 用 。 从 较 低 的 层面 上 来 说 ， 正 则 表达 却 摘 述 的 是 一 串 文 本 (a chunk 
of text) 的 特征。 读者 可 以 用 它 来 验证 用 户 输 入 的 数据 ， 或 者 也 可 以 用 
它 来 检索 大 量 的 文本 。 从 较 高 的 层面 上 来 说 ， 正 则 表达 去 容许 用 户 营 控 
他 们 自己 的 数据 一 一 控制 这 些 数据 ， 让 它们 为 自己 服务 。 掌 握 正 则 表达 
wh, Wize 292 H OW Be o 

本 书 的 价值 

The Need for This Book 

本 书 的 第 1 版 写 于 1996 年 ， 以 满足 当时 存在 的 需求 。 那 时 还 没有 关 
于 正则 表达 式 的 详尽 文 当 ， 所 以 它 的 大 部 分 能 力 还 没有 被 用 掘 出 来 。 正 
则 表达 式 文 档 倒 是 存在 ， 但 它们 都 立足 于 “低层 次 视角 ”。 我 认为 ， 那 种 
情况 瓯 好 像 是 教 一些 人 天文 字母， 然后 融 指 望 他 们 会 说 话 。 第 2 版 与 第 
1 版 间隔 了 五 年 半 的 时 间 ， 这 期 间 ， 互 联网 迅速 流行 起 来 ， 正 则 表达 式 
的 形式 也 有 了 极 大 的 扩张 ， 这 或 计 并 不 是 巧合 。 几 乎 所 有 工具 软件 和 程 
序 语言 支持 的 正则 表达 式 也 变 得 更 加 强大 和 易于 使 用 。Perl、Python、 
Tcl、Java 和 Visual Basic 都 提供 了 新 的 正则 文 持 。 新 出 现 的 文 持 内 建 正 则 
在 这 段 时 间 里 ， 本 书 的 核心 一 一 如 何 真 正 理解 正则 表达 式 ， 以 及 如 何 使 
用 正则 表达 去 一 一 仍然 保持 看 它 的 重要 性 和 参考 价 但 。 

不 过 ， 第 1 版 已 经 未 渐 脱 离 了 时 代 ， 必 须 加 以 修订 ， 才 能 适应 新 的 
语言 和 特性 ， 也 才能 对 应 正则 表达 却 在 互联 网 世界 中 越 来 越 重 要 的 地 
Meo B42 版 出 版 于 2002 年 ， 这 一 年 的 里 程 碑 是 java.util.regex、 








Microsoft.NET Framework 和 Perl 5.8 的 诞生 。 第 2 WAMA m XEN 
容 。 关 于 第 2 版 ， 我 唯一 的 遗憾 束 是 ， 它 没有 提 及 PHP。 目 第 2 WEE 
OR Sener TEE Ree eRe 
IAI 

第 3 版 在 前 面 的 章节 中 增加 了 PHP 的 相关 内 容 ， 并 专门 为 理解 和 应 
HPHP 的 正则 表达 式 增 加 了 一 章 全 新 的 内 容 。 男 外 ， 访 版 对 Java 的 章 广 
也 进行 了 修订 ， 做 了 可 观 的 扩充 ， 有 反映 了 Javal.5 和 Java1.6 的 新 特性 。 

目标 读者 

Intended Audience 

任何 有 机 会 使 用 正则 表达 式 的 人 ， 痢 会 对 本 书 感 兴趣 。 如 果 您 还 不 
了 解 正则 表达 式 能 提供 的 强大 功能 ， 这 本 书展 示 的 全 新 世界 将 会 让 您 受 
葵 菲 浅 。 即 使 您 认为 自己 已 经 是 掌握 正则 表达 式 的 噩 手 了 ， 这 本 书 也 能 
够 深化 您 的 认识 。 第 1 版 面世 后 ， 我 时 第 会 收 到 读者 的 电子 邮件 反映 
= 
人 

以 与 文本 打交道 为 工作 〈 如 Web 开 发 ) 的 程序 员 将 会 发 现 ， 这 本 书 
绝对 称 得 上 是 座 金 矿 ， 因 为 其 中 缠 产 了 各 种 细节 、 上 上 暗示、 讲解 ， 以 及 能 
够 立刻 投入 到 实用 中 的 知识 。 在 其 他 任何 地 方 部 难以 找到 这 样 丰 虽 的 细 
节 





正则 表达 式 古 一 种 思想 各 种 工具 以 各 种 方式 (数目 远 远 超过 本 
书 的 列 誉 ， 来 实现 它 。 如 果 读 者 理解 了 正则 表达 式 的 基本 思想 ， 笛 握 菏 
种 特殊 的 实现 就 是 易如反掌 的 事情 。 本 书 关 注 的 就 是 这 种 思想 ， 所 以 其 
中 的 许多 知识 并 不 党 例子 中 所 用 的 工具 软件 和 语言 的 束缚 。 

如 何 阅 读 

How to Read This Book 

这 本 书 既 是 教程 ， 义 是 参考 手册 ， 还 可 以 当 故 事 看 ， 这 取决 于 读者 
的 阅读 方式 。 丈 悉 正 则 表达 陈 的 谍 者 可 能 会 觉得 ， 这 本 书 己 上 残 能 当 作 
一 本 评 细 的 参考 手册 ， 旋 者 可 以 直接 跳 到 目 己 需要 的 章节 。 不 过 ， 我 并 
不 或 励 这 样 做 。 

要 想 充 分 利用 这 本 书 ， 可 以 把 前 6 章 作为 故事 来 读 。 我 发 现 ， 某 些 
思维 习惯 和 思维 方式 的 确 有 助 于 完整 的 理解 ， 不 过 最 好 还 是 从 这 儿 章 的 
讲解 中 学 习 它 们 ， 而 不 是 仅仅 记 住 其 中 的 几 张 列 表 。 
故事 是 这 样 的 ， 前 6 章 是 后 面 4 章 一 包括 Perl、Java、.NET 和 PHP 
的 基础 。 为 了 帮助 读者 理解 每 一 部 分 ， 我 交叉 使 用 各 章 的 知识 ， 为 
了 提供 尽 可 能 方便 的 索引， 我 投入 了 大 量 的 精力 (全 书 中 有 超过 1 200 
处 交 广 引用， 它们 以 符号 加 页 人 码 的 形式 标注 〉。 








在 读 完 整个 故事 以 前 ， 最 好 不 要 把 本 书 作 为 参考 手册 。 在 开始 阅读 
之 前 ， 读 者 可 以 参考 其 中 的 表格 ， 例 如 第 92 页 的 图 表 ， 想 象 它 代表 了 和 需 
要 掌握 的 相关 信息 。 但 是 ， 还 有 大 量 痛 景 信息 没有 包含 在 图 表 中 ， 而 丰 
隐藏 在 故事 里 。 读 者 阅读 完整 个 故事 之 后 ， 会 对 这 些 问 题 有 个 清晰 的 概 
念 ， 哪 些 能 够 记 起 来 ， 哪 些 需 要 温习 。 


组 织 结构 

Organization 

全 书 共 10 革 ， 可 以 从 逻辑 上 粗略 地 分 为 三 类 ， 下 面 是 总 体 概 痪 : 
+4 


BIR: 介绍 正则 表达 式 的 基本 概念 。 

第 2 章 : 考察 利 用 正则 表达 式 进 行文 本 处 理 的 过 程 。 

第 3 章 : 提供 对 于 特性 和 工具 软件 的 概述 以 及 简 史 。 

AT 

BAR: 揭示 了 正则 表达 式 的 工作 原理 的 细 市 。 

第 5 和 草 : 利用 第 4 章 的 知识 ， 继 续 学 习 各 种 例子 。 

Bom: 评 细 讨论 效率 问题 。 

特定 工具 的 知识 

第 7 章 : 详细 讲解 Perl 的 正则 表达 式 。 

第 8 章 : 讲解 Sun 提 供 的 java.util.regex 包 。 

OR: 讲解 .NET 的 语言 中 并 的 正则 表达 式 包 。 

FOR: 讲解 PHP 中 提供 正则 功能 的 preg 和 套件 。 

导 引 部 分 会 把 完全 的 门外汉 变 成 * 对 问题 有 感觉 ”的 新 手 。 对 正则 表 
达 陈 有 一 定 经 验 的 谈 者 完全 可 以 快速 翻 岗 这 些 草 节 ， 不 过 ， 即 使 是 对 于 
相当 有 经 验 的 谈 者 来 说 ， 我 仍然 要 特别 推荐 第 3 草 。 

ele 正则 表达 式 入 1 门 ， 是 为 完全 的 门外汉 准备 的 。 我 以 应 用 相 
当 广 泛 的 程序 egrep 为 例 来 介绍 正则 表达 陈 ， 我 也 提供 了 我 的 视角 : 如 
何 “ 理 解 ? 正 则 表达 式 ， 来 为 后 面 章 节 所 包括 的 高 级 概念 打下 坚实 的 基 
础 。 即 使 是 有 经 验 的 读者 ， 浏 览 本 草 也 会 有 所 收获 。 

e 第 2 章 入 门 示 例 拓展 ， 和 考察 了 文 持 正则 表达 却 的 程序 设计 语言 的 
真实 文本 处 理 过 程 。 附 加 的 示例 提供 了 后 面 草 和 详细 讨论 的 基础 ， 也 展 
示 了 局 级 正则 表达 式 调 校 背 后 的 重要 思考 过 程 。 为 了 让 读者 学 会 “正则 
表达 式 的 尽 路 ”， 这 草 出 现 了 一 个 复杂 问题 ， 并 讲解 了 两 种 全 然 不 相关 
的 工具 如 何 分 别 通过 正则 表达 陈 来 解决 它 。 

e 第 3 章 正则 表达 式 的 特性 和 流 钱 和 概 虎 ， 提 供 了 当前 经 第 使 用 的 工 
其 的 多 种 正则 表达 陈 的 概览。 因为 历史 的 混乱 ， 当 前 第 用 的 正则 表达 陈 


的 类 型 可 能 差异 巨大 。 此 章 同 时 介绍 了 正则 表达 式 以 及 使 用 正则 表达 式 
的 工 上 其 的 历史 和 尖 化 历程 。 本 章 末 尾 也 提供 mA S| SY. S| 
征 谈 者 学 习 此 后 高 级 内 容 的 路 线 图 。 

细 市 

The Details 

了解 了 基础 知识 之 后 ， 读 者 前 要 弄 明 日 “如 何 使 用 ”及 “这 么 做 的 原 
A”. RBC A DA” AE, IE TES EUSTATIUS. ee 
在 任何 时 间 、 任 何 地 点 应 用 关于 它 的 知识 。 

04E 表达 式 的 区 配 原 理 ， 循 序 渐 进 地 导入 本 书 的 核心 。 它 从 实 
践 的 角度 出 及 ， 考 察 了 正则 引擎 其 实 工 作 的 重要 的 内 在 机 制 。 全 得 正则 
表达 式 如 何 处 理工 作 细 节 ， 对 读者 掌握 它们 大 有 神 益 。 

e 第 5 草 正则 表达 却 实 用 扩 巧 ， 教 育 读者 在 高 层次 和 实际 的 运用 中 
应 用 知识 。 这 一 章 会 详细 讲解 第 见 〈 但 复杂 ) 的 问题 ， 目 的 在 于 拓展 和 
深化 读者 对 于 正则 表达 式 的 认识 。 

e 第 6 草 打造 高 效 正 则 表达 式 ， 考 察 真 实生 活 中 大 多 数 程序 设计 语 
a De PEAY IE ZETA SUH ENAR. AN IG AY SB et AS Be EE A AY N 
WA, APACS EMBED, FRESH RM o- 

特定 工具 的 知识 

Tool-Specific Information 

学 习 完 第 4、5、6 草 的 读者 ， 不 太 需 要 知道 特定 的 实现 。 不 过 ， 我 
还 是 用 了 4 个 整 草 来 讲解 4 种 流行 的 语言 。 

e 第 7 章 Perl， 评 细 讲 解 了 Perl 的 正则 表达 式 ，Perl 大 概 是 目前 最 流 
行 的 主要 的 正则 表达 式 编程 语言 。 在 Perl 中 ， 与 正则 表达 式 相 关 的 操作 
从 只 有 四 个 ， 但 它们 组 合 出 的 选项 和 特殊 情形 市 来 了 大 量 的 程序 选项 
间 时 还 有 陷阱 。 对 没有 经 验 的 开 肥 人 员 来 说 ， 这 种 极其 丰 遇 的 选项 
能 够 让 他 们 迅速 从 概念 转 同 程序 ， 当 然 也 可 能 是 雷 场 。 本 章 的 详细 介绍 
有 助 于 给 读者 指出 一 条 光明 大 着 。 

e 第 8 章 Java， 详 细 介 绍 了 java.utilregex 包 ， 从 Java 1.4 以 后 ， 它 已 
经 成 为 了 Java 语 言 的 标准 部 分 。 本 章 主 要 天 注 的 是 Java 1.5， 但 也 提 及 了 
它 与 Java 1.4.2 和 Java 1.6 的 差别 。 

e 第 9 章 .NET， 是 微软 尚未 提供 的 .NET 正 则 表达 式 库 的 文档 。 无 论 
4 FAVB.NET. CH, C++, JScript. VBScript. ECMAScriptit & {i 
用 .NET 组 件 的 其 他 语言 ， 本 章 痢 提供 了 评 细 内 容 ， 让 读者 能 够 充分 利 
用 .NET 的 正则 表达 式 。 

e 第 10 章 PHP， 简 要 介绍 了 PHP 内 骨 的 多 个 正则 引擎 ， 并 详细 介绍 
了 preg 正 则 表达 式 套 件 (regex engine) 的 类 型 和 API， 这 些 是 由 PCRE 正 





则 表达 式 库 所 供 的 。 

体例 说 明 

Typographical Conventions 

在 进行 (或 者 谈论 ) 评 细 的 和 复 森 的 文本 处 理 时 ， 你 持 精 确 性 是 很 
午 要 的 。 到 一 个 空格 字 伯 ， 可 能 导 任 截然 不 同 的 结果 ， 所 以 我 会 在 本 书 
中 使 用 下 面 的 惯例 : 

e 正 则 表达 式 以 "this 的 形式 出 现 。 两 端的 符号 表示 “里 面 有 一 个 正 
则 表达 式 *”， 而 正则 表达 式 文 字 【〔 例 如 用 来 检索 的 表达 式 〉 以 “this” 的 形 
式 出 现 。 有 了 时候 ， 省 略 两 端的 符号 和 单 引 号 也 不 会 造成 上 收 义 ， 此 时 我 会 
SR EE coven Wn RE 
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ELFLER BANA SRRA. PON, [...]% 
不 一 对 方 插 气 ， 之 间 的 内 容 无 天 案 要 ， 而 [...] 表 示 一 对 方 括 守 ， 其 中 包 

e 如 采 没 有 明确 数字 ， 可 能 很 难 判断 “a b” 之 间 有 多 少 空格 ， 所 以 出 
人 

e 我 使 用 可 见 的 制 表 符 ， 换 行 符 和 回 千 字符 : 





空格 字符 
iz Hill RAF 
换行 符 
Ex] 回 车 字符 


。 有 时 候 ， 我 会 使 用 下 画 线 或 有 色 背 景 高 亮 标注 文字 文本 或 正则 表 
达 式 的 一 部 分 。 下 面 这 句 话 中 ， 下 画 线 的 部 分 表示 表达 式 真正 匹配 的 部 
分 : 


It*indicates*yourecat* is… 


Because ‘cat matches ‘instead of the 


word 'cat',we realize... 
XP PIF, RARE op Sct S AIA SUP ASIEN FF : 
To make this useful,we can wrap ‘Subject|Date, with parentheses,and 


a ‘(Subject | Date) : 
append a colon and a space.This yields 一 — 


e 本 书包 含 了 大 量 的 细节 和 例子 ， 所 以 我 设置 了 超过 1 200 处 的 交叉 
引用 ， 帮 助 读者 理解 。 它 们 通常 表示 为 “ 守 123”， 意 思 是 “请 参阅 第 123 


页 ”。 举 个 例子 :“.… 的 说 明 在 表 8-2 中 〈 哑 367) ”。 

练习 

Exercises 

有 时 候 我 会 问 个 问题 ， 帮 助 读 者 理解 正在 讲解 的 概念 ， 尤 其 是 在 前 
儿 半 这 种 问题 更 多 。 它 们 并 不 是 探 设 ， 我 布 户 读者 在 继续 周 读 之 前 认真 
想 想 。 请 记 住 我 的 话 ， 不 要 忽略 它们 的 重要 意义 ， 本 书 中 这 样 的 问题 并 
不 多 。 它 们 可 以 当 作 上 日 我 测试 题 ， 如 果 不 是 几 人 句 话 束 能 说 明日 的 问题 ， 
KUER HI PA EZ J FARE AY TE 

N Skea Ae SINGS, REH SARI: 问题 的 答 
案 都 必须 翻 页 才能 看 到 。 通 常 你 必须 翻 过 一 页 才能 看 到 标 着 @ 的 答案 。 
这 样 答案 在 你 思考 问题 的 时 候 没 法 直接 看 到 ， 但 义 很 容易 获得 。 

链接 、 人 代码、 勘误 及 联系 方式 

Links,Code,Errata,and Contacts 

写 第 1 版 时 ， 我 发 现 修改 书本 上 的 URL， 保 持 与 实际 一 致 是 件 很 费 
eb 所 以 ， 我 没有 在 书后 罗列 一 个 URL 附 录 ， 而 是 提供 统一 的 

http://regex.info 

在 这 里 你 可 以 找到 与 正则 表达 式 相 关 的 链接 ， 书 中 的 所 有 代码 ， 可 
RREI] URRE. APE ETERO, MARIE S H) 
WR o 

如 末 你 找到 书 中 的 错误 ， 或 者 仅仅 是 希望 给 我 与 几 句 话 ， 请 写 邮 件 
Fij: jfriedl@regex.info. 

我 们 已 尽力 核验 本 书 所 提供 的 信息 ， 尽 寡 如 此 ， 仍 不 能 体 证 本 书 完 
全 没有 瑕 辛 ， 而 网 络 世界 的 变化 之 快 ， 也 使 得 本 书 永 不 过 时 的 你 证 成 为 
APTA. WR RABAT EWR, AMRF. FE. TEER 
in» PEMA, EAR We eee Bea ta Al. UREA FEAT j] 
A, ARREA RIERA TA SRNR» 

FASE FH CIEE) 有 限 公 司 

北京 市 海淀 区 知春 路 49 号 希 格 玛 公寓 B 座 809 室 

邮政 编 公 : 100080 

网 页 : http: //www.oreilly.com.cn 

E-mail:info@mail.oreilly.com.cn 

与 本 书 有 关 的 在 线 信息 如 下 所 示 。 

http: //www.oreilly.com/catalog/regex3/ (JAP) 

http: //www.oreilly.com.cn/book.php? bn=978-7-121-04684-1 (FPX 


ie, 


第 1 章 正则 表达 式 入 站 


Introduction to Regular Expressions 

想象 一 下 这 幅 图 景 : 你 圾 要 检索 菏 侣 Web 服务 禹 上 的 页 面 中 的 香 复 
单词 〈 例 如 “this this’) ， 进 行 大 规模 文本 编辑 时 ， 这 是 一 项 弟 见 的 任 
务 。 程 序 必 须 满足 下 面 的 要 求 : 

e 能 检 碍 多 个 文件 ， 挑 出 包含 重复 单词 的 行 ， 高 腕 标记 每 个 重复 单 
词 〈 使 用 标准 ANSI 的 转 义 字符 序列 Cescape sequence) ) ， 同 时 必须 显 
示 这 行文 字 来 目 哪 个 文件 。 

e 能 跨行 得 找 ， 即 使 网 个 单词 一 个 在 茶 行 末尾 而 另 一 个 在 下 一 行 的 
FA, CHER HH. 

e 能 进行 不 区 分 大 小 写 的 得 找 ， 例 如 The the...’, Hess Stal fa] ay 
以 出 现任 总数 量 的 空 日 字符 (空格 人 符 、 制 表 和 从 、 换 行 符 之 类 ) (译注 
i 

e 能 查找 用 HTML tag 分 隔 的 重复 单词 。HTML tag 用 于 标记 互联 网 
页 上 的 文本 ,例如 ， 粗 体 单词 是 这 样 表示 的 : 和 .it is <B>very</B> 
very Important...’。 

这 些 问 题 并 不 容易 解决 ， 但 叉 不 能 不 解决 。 我 在 写作 本 书 的 手 稳 
MN, BAS TERME CAS oo, RETER, FP SEA A 
BSH) HZ ie]. ROWS RRR IH A SAE a AVES, {Ae SC RPIE 
则 表达 式 的 语言 来 处 理会 相当 简单 。 

正则 表达 式 (Regular Expression) 是 强大 、 便 捷 、 高 效 的 文本 处 理 
工具 。 正 则 表达 式 本 里， 加 上 如 同一 门 袖珍 编程 语言 的 通用 模式 表示 法 
(general pattern notation) ， 赋 予 使 用 者 描述 和 分 析 文 本 的 能 力 。 配 合 
上 特定 工具 提供 的 额外 文 持 ， 正 则 表达 陈 能 够 添加 、 删 除 、 分 离 、 登 
加 、 插 入 和 修整 各 种 类 型 的 文本 和 数据 。 

正则 表达 式 的 使 用 难度 只 相当 于 文本 编辑 问 的 搜索 命令 ， 但 功能 却 
与 完整 的 文本 处 理 语言 一 样 强大 。 本 书 将 向 读者 展示 正则 表达 式 提高 
产 座 的 请 多 办 法 。 它 会 教导 读者 如 何 学 会 用 正则 表达 式 来 思考 (think 
regular expressions) ， 以 便于 笃 握 它们 ， 充 分 利用 它们 的 强大 功能 。 

如 有 果 使 用 当今 流行 的 程序 设计 语言 ， 解 决 午 复 单词 问题 的 完整 程序 
可 能 仅仅 只 需要 几 行 代码 。 使 用 一 个 正则 表达 式 的 搜索 和 和 蔡 换 命 全， 读 
者 束 可 以 查找 文档 中 的 重复 单词 ， 并 把 它们 标记 为 蜗 司 。 加 上 为 一 个 ， 
你 可 以 删除 所 有 不 包含 重复 单词 的 行 《 只 留 下 需要 在 结 末 中 出 现 的 


行 )。 最 后 ， 利 用 第 三 个 正则 表达 式 ， 你 可 以 确保 结果 中 的 所 有 行 都 以 
Et 在 下 一 半 里 ， 我 们 会 看 到 用 Perl 和 Java 编 写 的 
EJF 。 

宿主 语言 〈 例 如 Perl、Java 以 及 VB.NET) 提供 了 外 围 的 处 理 支 持 ， 
但 是 真正 的 能 力 来 自 正 则 表达 式 。 为 了 要 驭 这 种 语言 ， 满 足 自 己 的 需 
求 ， 读 者 必须 知道 如 何 构建 正则 表达 式 ， 才 能 识别 符合 要 求 的 文本 ， 同 
时 忽略 不 需要 的 文本 。 然 后 ， 束 可 以 把 表达 式 和 话 言 文 持 的 构建 方式 结 
ey 真正 处 理 这 些 文 本 (加 入 合适 的 高 亮 标 记 人 代码， 删除 文本 ， 修 
DOLA BSH 


解雇 实际 问题 


Solving Real Problems 

掌握 正则 表达 式 ， 可 能 带 来 超 乎 你 之 前 想象 的 文本 处 理 能 力 。 每 一 
天 ， 我 都 依 徘 正 则 表 过 陈 解 决 各 种 大 大 小 小 的 问题 〈 通 稼 的 情况 是 ， 问 
题 本 身 并 不 复杂 ， 但 没有 正则 表达 式 就 成 了 大 问题 〉。 

要 议 明 正则 表达 式 的 价值 ， 可 以 举 一 个 用 正则 表达 式 解 决 大 而 曹 要 
的 问题 的 例子 ， 但 是 它 不 一 定 能 代表 正则 表达 式 在 平时 解决 的 那些 “不 
值 一 提 ”(uninteresting〉 的 问题 。 这 里 的 “不 值 一 提 ” 是 指 这 类 问题 并 不 
能 成 为 谈资 ， 可 是 不 解决 它们 ， 你 就 没 法 继续 干 活 。 

举 个 催 单 的 例子 ， 我 需要 检查 许多 文件 《事实 上 ， 本 书 的 手稿 存放 
在 70 个 文件 中 ) ， 确 保 每 一 行 中 ‘SetSize’ 出 现 的 次 数 与 ‘ResetSize’ 的 一 
样 多 。 为 了 应 付 复杂 的 情况 ， 我 还 需要 考虑 大 小 写 的 情况 〈 举 例 来 
Ui, ‘setSIZE’ WEA SetSize) . A Ltr 32 000 行文 字 显 然 不 现实 。 

即便 使 用 文本 编辑 占 的 “单词 僵 找 ”功能 ， 也 不 够 方便 ， 尤 其 古 对 所 
有 文件 进行 同样 的 操作 ， 何 况 还 需要 考虑 有 所 有 可 能 的 大 小 写 情况 。 

正则 表达 陈 束 是 解决 这 个 问题 的 灵 彤 妙 约 。 只 需要 一 个 简单 的 命 
令 ， 我 焉 能 够 检查 所 有 的 文件 ， 获 得 我 需要 知道 的 结 末 。 时 间 征 : 与 命 
令 大 概 15 秒 ， 检 索 所 有 的 数据 实际 只 伦 了 2 秒 。 这 真是 棱 极 了 (如 果 您 
想 知 道 这 是 起 么 做 到 的 ， 不 妨 现在 束 翻 到 第 36 页 〉! 

再 从 一 个 例子 ， 我 曾 帮 助 一 个 朋友 人 处理 远 闹 机 颖 上 的 某 些 E-mail, 
他 项 望 我 把 他 邮箱 文件 中 的 消 恩 作为 列表 友 壕 给 他 。 我 可 以 把 整个 文件 
导入 文本 编辑 左 ， 手 工 删除 所 有 信息 ， 只 留 下 邮件 头 中 的 几 行 ， 作 为 内 
容 的 列表 。 尽 管 文 件 不 是 很 大 ， 连 接 速 度 也 不 算 辟 ， 这 样 的 任务 还 是 很 
MRM AMAR. MA, BARE SC, EERIE . 

正则 表达 陈 再 一 次 提供 了 帮助 ! 我 用 一 个 简单 的 命令 (使 用 本 章 稍 
后 提 到 的 一 个 党 用 工具 egrep〉 显示 每 封 邮件 的 From: 和 Subject: F 
段 。 为 了 告诉 egrep 我 需要 提取 哪些 行 ， 我 使 用 了 正则 表达 去 
A^ (From|Sbuject) : 。 

朋友 得 到 这 个 列表 之 后 ， 让 我 找 一 封 特殊 的 《5 000 4r! ) 邮件 。 
使 用 文本 编辑 占 或 者 邮件 系统 来 提取 一 封 邮件 无 疑 非常 耗 时 。 相 反 ， 我 
售 助 另 一 个 工具 《叫做 sed) ， 同 样 使 用 正则 表达 陈 来 摘 述 文件 中 我 需 
要 的 内 容 。 这 样 ， 我 能 迅速 而 方便 地 提取 和 有 发 送 需 要 的 邮件 。 

使 用 正则 表达 式 和 省 下 来 的 时 间或 许 并 不 能 让 人 “激动 >， 但 总 比 把 
时 间 消 耗 在 文本 编辑 器 中 要 好 。 如 果 我 不 知道 有 正则 表达 式 这 种 玩意 


儿 ， 根 本 就 不 会 想到 还 有 别 的 解决 办 法 。 所 以 ， 这 个 故事 告诉 我 们 ， 正 
则 表达 式 和 相关 的 工 其 能够 让 我 们 以 可 能 未 兽 想 过 的 方式 来 解决 问题 。 
一 旦 掌握 了 正则 表达 式 ， 你 就 会 知 志 到 它 简 二 是 工具 中 的 无 价 之 
宇 ， 你 也 难以 想象 之 前 那些 没有 正则 表达 式 的 日 子 是 怎么 有 度 过 的 〈 注 
D 
全 面 掌握 正则 表达 式 是 很 有 用 的 。 本 书 提供 了 和 擎 握 这 种 技能 所 需要 
的 信息 ， 我 同时 也 和 希望， 这 本 书 也 提供 了 促使 你 学 习 的 动机 。 


作为 编程 语言 的 正则 表 这 陈 


Regular Expressions as a Language 

如 果 没 有 正则 表达 式 相 关 经 验 ， 读 者 可 能 无 法 理解 上 个 例子 中 正则 
KIXI (From|Subject) : 的 音义， 但 是 这 个 表达 式 并 没有 什么 神奇 
之 处 。 其 实 秦 术 本 里 也 不 神奇 ， 只 是 缺乏 训练 的 普通 观众 不 明日 秦 术 师 
Se ABR Mo. WR TTS OU EE KR, ASA, AZ 
之 后 ， 你 也 可 以 “ 变 魔 术 ”。 外 语 也 是 这 样 一 一 一 旦 掌握 了 一 门 外 语 ， 你 
MRS TF ERK YS 


以 文件 名 做 类 比 


The Filename Analogy 

选择 这 本 书 的 读者 ， 大 概 对 “正则 表达 式 ” ZDAR., ME 
有 ， 也 应 该 熟悉 其 中 的 基本 概 食 。 

我 们 都 知道 ，report.txt 是 一 个 文件 名 ， 但 是 ， 如 有 果 你 用 过 Unix 或 者 
DOS/Windows 的 话 ， 就 会 知道 “x .txt” 能 够 用 来 选择 多 个 文件 。 在 此 类 
文件 名 称 为 “文件 群 组 ”file globs 或 者 “通配符 ”wildcards) 中 ， 有 些 字 
从 具有 特殊 的 意义 。 星 与 表 示 “ 任 意 文 本 ， 问 号 表 示 “ 任 意 单 个 字符 ”。 
所 以 ， 文 件 群 组 “类 .txt” 以 能 够 轧 配 字符 的 ' 汪 符号 开头 ， 以 普通 文字 

:txt 结尾 ， 所 以 ， 它 的 意思 是 : 选择 以 任 是 文本 开头 ， 以 .txt 结尾 的 所 
AON 

大 多 数 系 统 都 提供 了 少量 的 附加 特殊 字符 Cadditional special 
characters) ， 但 是 ， 总 的 来 说 ， 这 些 文 件 名 模式 (filename patterns) 的 
表达 能 力 还 很 有 限 。 不 过 ， 因 为 这 类 问题 的 领域 很 狭 罕 只 涉及 文件 
名 ， 所 以 这 算 不 上 缺陷 。 

不 过 ， 处 理 普 通 的 文本 就 没有 这 么 简单 了 。 散 文 、 诗 、 程 序 代 公 、 
报表 、HTML、 表 格 、 单 词 表 ..…. 到 你 想 得 出 的 任何 文本 。 如 林寺 种 特 
丈 的 需求 足够 专业 ， 例 如 “选择 文件 ”， 我 们 可 以 友 明 一 些 特殊 的 办 法 和 
工具 来 解决 问题 。 不 过 ， 近 年 来 ， 一 种 “通用 的 模式 语言 ”(generalized 
pattern language) 已 经 及 展 起 来 ， 它 功能 强大 ， 摘 述 能 力也 很 吕 ， 可 以 
用 来 解决 各 种 问题 。 不 同 的 程序 以 不 同 的 方式 来 实现 和 使 用 这 种 语言 ， 
但 是 综合 来 说 ， 这 种 功能 蝇 大 的 模 陈 语言 和 模式 本 喘 被 称 为 “正则 表达 


式 ”(regular expression) 。 





以 语 诗 做 类 比 


The Language Analogy 

完整 的 正则 表达 式 由 两 种 字符 构成 。 特 殊 字 人 符 (special characters, 
例如 文件 名 例子 中 的 关 ) 称 为 “元 字符 ”(metacharacters) ， 其 他 为 “ 文 
=” (literal) ， 或 者 是 普通 文本 字符 (normal text characters) 。 正 则 表 
达 式 与 文件 名 模式 (filename pattern) 的 区 别 就 在 于 ， 正 则 表达 式 的 元 
字符 提供 了 更 强大 的 朱 述 能 力 。 文 件 名 模式 只 为 有 限 的 需求 提供 了 有 限 
的 元 字符 ， 但 是 正则 表达 陈 “ 语 言 ?为 高 级 应 用 提供 了 丰 宙 而 且 摘 述 为 极 
强 的 元 字符 。 

为 了 便于 理解 ， 我 们 可 以 把 正则 表达 式 想 象 为 普通 的 语言 ， 普 通 字 
侍 对 应 普通 语言 中 的 单词 ， 而 元 字符 对 应 语法 。 根 据 语 言 的 规则 ， 按 照 
语法 把 单词 组 合 起 来 ， 驳 会 得 到 能 传达 思想 的 文本 。 在 E-mail 的 例子 


三 
中 ， 我 用 正则 表达 式 bu ru si 来 寻找 以 From:， :或 
it FRR AT © PIA EPR ET A Je BAT A 
它们 的 含义 。 

束 像 学 习 任 何 一 门 外 语 一 样 ， 第 一 眼看 上 上 去， 正则 表达 式 很 不 好 理 
解 。 这 也 是 那些 对 它 只 有 粗浅 了 解 或 者 根本 不 了 解 的 人 宛 得 正则 表达 式 
很 神奇 的 原因 。 但 是 ， 整 像 学 日 语 的 人 很 快 就 能 理解 正规 表现 导 简 简 太 
k! QE 2) 一 样 ， 读 者 很 快 也 能 够 彻底 明白 下 面 这 个 正则 表达 却 的 合 
X: 

s!<emphasis > ([0-9]+(\.[0-9]+){3})</emphasis > !<inet >$1</inet 
>! 

这 个 例子 取 目 一 个 Perl 脚本 ， 我 的 编辑 右 用 它 来 修改 手稿 。 手 称 的 
作者 错误 地 使 用 了 <emphasis 之 这 个 tag 来 标注 I 了 地 址 〈 关 似 
209.204.146.22 这 样 由 数字 和 点 写 构 成 的 字符 串 ) 。 其 中 的 奥妙 束 在 于 
使 用 Perl 的 文本 答 换 命 令 ， 使 用 : 

| <emphasis > ([0-9]+(\.[0-9]+){3})</emphasis> 

FE IPH LL m tag BAW <inet>, AoE LA <emphasis > 
pee. TEJA SE, eae SS ARK PIAS AR BE 
按照 目 己 的 需求 ， 在 目 己 的 应 用 程序 或 者 开发 语言 中 应 用 这 些 技巧 。 

本 书 的 目的 

你 或 许 不 需要 重复 把 生 emphasis 之 答 换 为 <<inet 之 的 工作 ， 不 过 很 
可 能 需要 解决 “把 这 些 文字 答 换 为 那些 文字 ”的 问题 。 本 书 的 目的 不 是 提 
供 具 体 问题 的 解决 办 法 ， 而 是 教会 读者 利用 正则 表达 式 来 思考 ， 解 决 过 


到 的 各 种 问题 。 


正则 表达 式 的 思维 框架 


The Regular-Expression Frame of Mind 

我 们 将 会 看 到 ， 完 整 的 正则 表达 式 由 小 的 构建 模块 单元 (building 
block unit) 组 成 。 每 个 单独 的 构建 模块 都 很 简单 ， 不 过 因为 它们 能 够 以 
无 穷 多 种 方式 组 合 ， 将 它们 结合 起 来 实现 特殊 目标 必须 依 徘 经 验 。 所 
以 ， 本 章 提 供 了 有 天正 则 表达 式 的 大 干 概 念 的 总 体 描述 。 这 一 章 并 没有 
驰 深 的 内 容 ， 而 是 为 本 书 其 余 草 市 的 知识 打下 基础 ， 在 深入 探索 正则 表 
达 式 之 前 ， 把 相关 事宜 前 释 清和 芭 。 

东 些 例子 看 起 来 可 能 有 点 无 聊 《〈 因 为 它们 确实 无 聊 ) ， 但 它们 代表 
了 一 类 需要 完成 的 任务 ， 只 是 读者 目前 可 能 还 没有 意识 到 。 即 使 觉得 每 
a ER ee 
章 的 目的 。 


对 于 有 部 分 经 验 的 读音 


If You Have Some Regular-Expression Experience 

如 果 读 者 已 经 熟悉 正则 表达 式 ， 这 些 综述 便 没有 太 大 价值 ， 但 务必 
不 要 忽略 它们 。 你 或 许 明 日 未 些 元 字符 的 基本 意义 ， 但 东 些 思维 和 看 行 
正则 表达 式 的 方式 可 能 是 你 不 了 解 的 。 

MAR ERARAS AR AE S ARERIA 
和 真正 理解 正则 表达 式 并 不 是 一 回 事 。 菏 些 内 容 可 能 会 午 复 读者 已 经 了 
解 的 知识 ， 但 方式 可 能 与 之 前 的 人 不同 ， 而 且 这 些 方式 正 是 真正 理解 正则 
表达 式 的 第 一 步 。 


检索 文本 文件 : Egrep 


Searching Text Files:Egrep 

MAS RAR FE TE WU EIA A Hy fay FAY BF 2 9 & SCAB in $5 4 FA SC 
字 处 理 软 件 都 提供 了 正则 表达 式 检 索 的 功能 。 最 简单 的 就 是 egrep。 在 
指定 了 正则 表达 式 和 需要 检索 的 文件 之 后 ，egrep 会 尝试 用 正则 表达 式 
来 由 配 每 个 文件 的 每 一 行 ， 并 显示 能 够 由 配 的 行 。 

许多 系统 例如 DOS、MacOS、Windows、Unix 等 等 一 一 都 对 应 
有 人 免费 提供 的 egrep。 在 本 书 的 网 页 http: //regex.info 上 可 以 找到 获得 对 
应 读者 操作 系统 的 egrep 找 贝 的 链接 。 








回 到 第 3 页 的 E-mail 的 例子 ， 真 正 用 来 从 E-mail 文 件 中 提取 结果 的 命 
令 如 图 1-1 所 示 。egrep 把 第 一 个 命令 行 参 数 视 为 一 个 正则 表达 却 ， 剩 下 
的 参数 作为 待 搜 检索 的 文件 名 。 注 意 ， 图 1-1 中 的 单 引 号 并 不 是 正则 表 
达 式 的 一 部 分 ， 而 是 根据 command shell 需 要 谎 加 的 〈 注 3) 。 使 用 egrep 
时 ， 我 通 和 用 单 引 号 来 包围 正则 表达 式 。 如 果 要 在 文 持 对 正则 表达 式 提 
供 了 完整 文 持 的 程序 设计 语言 中 使 用 正则 表达 陈 一 这 是 下 一 章 开 头 的 
内 容 ， 重 要 的 问题 是 知道 特殊 字符 有 哪些 ， 有 具体 文本 是 什么 ， 针 对 什么 
WHR TARAS, ALARA) ， 以 及 按 何 种 顺序 解释 这 些 字 人 符 。 






shell 中 的 引号 
shell 


提示 和 提交 给 egrep 的 正则 表达 式 


% egrep ’4(From|Subject): © mailbox-file 





图 1-1: 通过 命令 行 调用 egrep 
我 们 马上 整 能 明白 ， 这 个 正则 表达 式 的 各 个 部 分 都 是 什么 意 轧 ， 但 
已 经 知道 某 些 字符 具有 特殊 含义 的 读者 或 许 能 够 猿 出 大 概 了 。 在 这 里 ， 
信和 | 都 是 正则 表达 式 的 元 字符 ， 它 们 与 其 他 字符 结合 起 来 ， 实 现 我 
们 期 望 的 功能 。 
如 果 一 个 正则 表达 式 不 包括 任何 egrep 支 持 的 元 字符 ， 它 就 成 了 一 
个 简单 的 “ 纯 文 本 ”检索 。 例 如 ， 在 一 个 文件 中 检索 cat ， 会 显示 任何 包 


含 ca't 这 3 个 连续 字母 的 行 。 例 如 ， 它 包括 所 有 出 现 了 ”3563507 的 
人 

即便 这 行文 本 中 不 包含 单词 cat，vacation 中 包含 的 ca't 序 列 仍然 符 
合 匹 配 条 件 。 如 果 某 行 中 包含 vacation，egrep 就 会 把 它 显 示 出 来 。 关 键 
束 在 于 ， 此 处 进行 的 正则 表达 式 搜 索 不 是 基于 “单词 ”的 egrep He te FE 
解 文 件 中 的 字 节 和 行 ， 但 它 完 全 不 理解 英语 〈 或 者 其 他 任何 语言 ) 的 单 
ta]. AS. Pe, KE EAM o 





— > Ary 


Egrepyu + fi 


Egrep Metacharacters 

现在 我 们 来 看 egrep 中 文 持 正则 表达 云 功 能 的 元 字符 。 我 会 用 几 个 
例子 来 简要 介绍 它们 ， 把 详细 的 例子 和 摘 述 留 到 后 面 的 章节 。 

印刷 体例 在 开始 之 前 ， 请 务必 回顾 前 言 第 V 幢 上 解释 的 体例 说 明 。 
AB TEFA, AAS EER Pr se ae WK eel A) ETE AN A 


ÍT HY eC a A AR 


Start and End of the Line 

NIRA g FE AEA eA ee SE A AS ot S$, TERE 
但 一 行文 本 时 ， 信 代表 一 行 的 开始 ，'$ 代表 结束 。 我 们 曾经 看 到 ， 正 
则 表达 式 'cat 寻找 的 是 一 行文 本 中 任意 位 置 的 ca*xt， 但 是 '^cat 只 寻找 
行 首 的 cat 和 用 来 把 匹配 文本 《〈 这 个 表达 却 的 其 他 部 分 匹配 的 字 
IT) “锁定 ”(Canchor) 在 这 一 行 的 开头 。 同 样 ， "cat$ 只 寻找 位 于 行 末 的 
ca:t， 例 如 以 scat 结 尾 的 行 。 

读者 最 好 能 养 成 按照 字符 来 理解 正则 表达 式 的 习惯 。 例 如 ， 不 要 这 





样 : 
Acat 匹配 以 cat 开 头 的 行 
而 应 该 这 样 理解 : 
Acat 匹配 的 是 以 c 作 为 一 行 鸭 第 一 个 字符 ， 紧 接 一 个 a， 紧 接 一 个 t 
的 文本 。 


这 两 种 理解 的 结果 并 无 过 寞 ， 但 按照 字符 来 解读 更 易于 明日 新 过 到 
的 正则 表达 式 的 内 部 馆 辑 。egrep 会 如 何 解释 Acat 、 (A$ 和 单个 的 从 
We? 请 翻 到 下 页 但 看 答案 。 

脱 字 符号 和 美元 符号 的 特别 之 处 束 在 于 ， 它 们 匹配 的 是 一 个 位 置 ， 
而 不 是 其 体 的 文本 。 当 然 ， 有 很 多 方式 可 以 匹配 基体 文本 。 在 正则 表达 
AH, BRIEN cat 之 类 的 普通 字符 ， 还 可 以 使 用 下 面 几 币 介绍 的 元 字 
FF 


Character Classes 

VU Ait a FF FZ 

如 果 我 们 二 要 搜索 的 是 单词 “grey”， 同 时 义 丰 人 确定 它 是 否 写 
作 “gray”， 束 可 以 使 用 正则 表达 式 结 构 体 (construct) 和 [...] 。 它 容许 使 
用 者 列 出 在 某 处 期 望 罗 配 的 字 从 ， 通 第 被 称 作 字 从 组 (character 
class (译注 2) ) 。'e 匹配 字符 e，'a 匹配 字符 a， 而 正则 表达 式 '[ea] 能 
匹配 a 或 者 se。 所 以 ， gr[eajly 的 意思 是 : 先 找 到 g， 跟 看 是 一 个 r， 然 后 
征 一 个 a 或 者 e， 最 后 是 一 个 y。 我 很 不 擅长 拼写 ， 所 以 总 是 用 正则 表达 
式 从 一 大 扒 喘 文 单 词 中 找到 正确 的 拼写 。 我 经 音 使 用 的 一 个 正则 表达 却 
征 'sep[eajr[eajte ， 因 为 我 从 来 都 记 不 住 这 个 单词 到 搬 是 与 
作 “seperate”，“separate”，“separete”， 还 是 别 的 什么 样子 。[ 匹 配 的 结果 
的 束 是 正确 的 拼 法 ， 而 正则 表达 式 束 是 我 的 领路 人 。 

请 注意 ， 在 字符 组 以 外 ， 普 通 字 符 〈 例 如 gr[aely 中 的 'g A'r O i 
A“ PORE Cand then) ”的 意思 一 一 “首先 匹配 'g ， 接 下 来 是 了 
pases ”。 这 与 字符 组 内 部 的 情况 是 完全 相反 的 。 字 符 组 的 内 容 是 在 同一 
个 位 置 能 够 匹配 的 奋 王 字符， 所 以 它 的 意思 是 “或 ”。 

来 看 另 一 个 例子 ， 我 们 还 必须 考虑 单词 的 第 一 个 字母 为 大 与 的 情 
况 ， 例 如 '[Ssjmith 。 请 记 住 ， 这 个 表达 式 仍 然 能 够 轧 配 内 骸 在 其 他 单 
词 里 头 的 smith (或 者 是 Smith〉， 例 如 blacksmith。 在 综述 阶段 ， 我 不 
打算 为 这 种 情况 费 太 多 笔 彼 ,但 是 这 确实 是 菜 些 新 手 过 到 的 问题 的 根 
源 。 等 了 解 了 更 多 的 元 字符 以 后 ， 我 会 介绍 一 些 办 法 来 解决 单词 仍 矢 的 
问题 。 在 一 个 字符 组 中 可 以 列举 任意 多 个 字符 。 例 如 [123456] 匹配 1 到 
6 中 的 任意 一 个 数字 。 这 个 字符 组 可 以 作为 "过 HI[123456]> 的 一 部 分 ， 
用 来 匹配 <H1>、<H2>、<H3> 等 等 。 在 搜索 HTML 代码 的 头 文件 
AY ICE HY A H o 

在 字符 组 内 部 ， 字 符 组 元 字符 Ccharacter-class 
metacharacter) -° CEF) 表示 一 个 苑 围 : | 二 H[1-6] 与 "去 
H[123456]> ,是 完 全 一 样 的 。 [0-9] 和 [a-z] 是 第 用 的 匹配 数学 和 小 写 
字母 的 窗 便 方式 。 多 重 范 围 也 是 容许 的 ， 例 如 
[0123456789abcdefABCDEF] 可 以 写作 「[0-9a-fA-F] 《或 者 也 可 以 写作 
[A-Fa-f0-9] ， 顺 序 无 所 谓 〉。 这 3 个 正则 表达 式 非常 适用 于 处 理 十 六 进 
制 数 字 。 我 们 还 可 以 随心 所 欲 地 把 字符 范围 与 普通 文本 结合 起 来 : | [0- 
9A-Z_! .? ] 能 够 匹配 一 个 数字 、 大 写字 母 、 下 男 线 、 惊 叹 号 、 点 号 ， 
Bet ae [HS o 

Em, RATES AAA GB, EFIS En TAAU ENR Be 





匹配 伙 通 的 连 字 符 喜 。 其 实 ， 即 使 在 字符 组 内 部 ， 它 也 不 一 定 束 是 元 字 
人 符 。 如 朱 连 字符 出 现在 字符 组 的 开头 ， 它 表示 的 束 只 是 一 个 普通 字符 ， 
而 不 是 一 个 范围 。 同 样 的 道理 ， 问 志和 氮 号 通 第 梓 当 作 元 字符 处 理 ， 但 
在 字符 组 中 则 不 是 如 此 《说 明日 一 点 融 是 ， [0-9A-Z_! .? ] EM, R 
正 的 特殊 字符 殉 只 有 那 两 个 连 字 符 ) 。 


分 析 ^catSj、^S 和 | 


第 8 页 问题 的 答案 
“cats; 文字 意义 ; 匹配 的 条 件 是 ， 行 开头 (显然 ， 每 一 行 都 有 开头 ) ， 然 后 是 字母 
cat, RERIK, 
i : 只 包含 cat 的 行 一 一 没有 多 余 的 单词 、 空 白字 符 …… 只 
: 匹配 的 条 件 是 ， 行 开头 ， 然 后 就 是 行 末 尾 ， 
: BT (RAEN SH, GHZ OTA), 
: 匹配 条 件 是 行 的 开头 。 
: 无 意义 | 因为 每 一 行 都 有 开头 ， 所 以 每 一 行 都 能 匹配 一 一 空 行 也 
不 例外 。 





不 妨 把 字符 组 看 作 独 立 的 微型 语言 。 在 字符 组 内 部 和 外 部 ， 关 于 元 
字符 的 规定 〈 哪 

些 是 元 字符 ， 以 及 它们 的 意义 ) 是 不 同 的 。 

我 们 很 快 束 会 看 到 更 多 的 例子 。 

排除 型 字符 组 

FATA...) 取代 T[...] ， 这 个 字符 组 就 会 匹配 任何 未 列 出 的 字符 。 例 
如 ，'[^1-6] 匹配 除了 1 到 6 以 外 的 任何 字符 。 这 个 字符 组 中 开头 的 和 表 
示 “ 排 除 Cnegate) ”， 所 以 这 里 列 出 的 不 是 希望 匹配 的 字符 ， 而 是 不 硕 
EAU ACH AFF 

读者 可 能 注意 到 了 ， 这 里 的 ^ 和 第 8 页 的 表示 行 首 的 脱 字 符 是 一 样 
的 。 字 符 确 实 相 同 ， 但 意义 截然 不 同 。 瑞 语 里 的 “wind”， 根 据 情境 的 不 
同 ， 可 能 表示 一 阵 强 烈 的 气流 〈 风 ) ， 也 可 能 表示 给 钟表 上 发 条 ; 元 字 
符 也 是 如 此 。 我 们 已 经 看 过 用 来 表示 范围 的 连 字符 的 例子 。 只 有 在 字符 
组 内 部 《而 且 不 是 第 一 个 字符 的 情况 下 ) ， 连 字符 才能 表示 范围 。 在 字 


符 组 外 部 ，^ 表 示 一 个 行 锚 点 〈line anchor) ， 但 是 在 字符 组 内 部 《而且 
必须 是 案 接 在 字符 组 的 第 一 个 方 插 写 之 后 )， 它 就 是 一 个 元 字 人 和 从。 请 不 
要 担心 这 吏 是 最 复杂 的 情况 ， 接 下 来 的 内 容 比 这 人 简单 。 

来 看 另 一 个 例子 ， 我 们 需要 在 一 扒 现 文 单 词 中 搜索 出 一 些 特殊 的 单 
词 : 在 这 些 单 词 中 ， 字 母 gq 后 面 的 字母 不 是 u。 用 正则 表达 式 来 表示 ， 
Were qu] 。 用 这 个 正则 表达 却 来 搜索 我 手头 的 数据 ， 确 实 得 到 了 一 些 
结 末 ， 但 显然 不 多 ， 其 中 还 有 些 是 我 没 见 过 的 英文 单词 。 

下 面 是 结果 (我 输入 的 命令 用 粗 体 表 示 ): 


% egrep 'q[^u]' word.list 
Iragi 

Iragian 

migra 

qasida 

gintar 

goph 

zaqqum% 


其 中 有 两 个 单词 值得 注意 : 伊拉克 “Iraq” 和 澳大利亚 航空 公司 的 名 
字 “Qantas”。 尽 管 它 们 都 在 word.list 文 件 中 ， 但 都 不 包 售 在 egrep 结 来 
中 。 为 什么 呢 ? 请 动 动脑 筋 ， 然 后 翻 到 下 一 页 来 检查 你 的 答 肥 。 

请 记 住 ， 排 除 型 字符 组 表示 “匹配 一 个 未 列 出 的 字符 (match a 
character that's not listed) ”， 而 不 是 “不 要 匹配 列 出 的 字符 (don't match 
what is listed) ”。 这 两 种 说 法 看 起 来 一 样 ， 但 是 Iraq 的 例子 说 明了 其 中 
的 细微 差异 。 有 一 种 简单 的 理解 排除 型 字符 组 的 办 法 ， 残 是 把 它们 看 作 
普通 的 字符 组 ， 里 面包 含 的 是 除了 “排除 型 字符 组 中 所 有 字符 ”以 外 的 字 
AF o 
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Matching Any Character with Dot 

TFI. 〈 通 第 称 为 点 号 dot 或 者 小 点 point) 是 用 来 匹配 任意 字符 
的 字符 组 的 徐 便 写法 。 如 采 我 们 需要 在 表达 陈 中 使 用 一 个 “匹配 任何 字 
从 ”的 占 位 从 (placeholder) ， 用 点 写 束 很 方便 。 例如， 如 来 我 们 需要 搜 
索 03/19/76、03-19-76 或 者 03.19.76， 不 怕 麻 烦 的 话 用 一 个 明确 容 
许 ‘、‘-、“2 的 字符 组 来 构建 正则 表达 式 ， 例 如 '03[-./]19[-./]76 。 也 可 
以 简单 地 尝试 '03.19.76 。 

读者 第 一 次 接触 这 个 表达 式 时 ， 可 能 还 不 清楚 某 些 情况 。 在 


03[-./]19[-./]76 F, RSH EET, AWENTEL AAA BS Cd 

住 ， 在 字符 组 里 面 和 外 面 ， 元 字符 的 定义 和 意义 古 不 一 样 的 ) 。 这 里 的 
连 字 符 同 样 也 不 是 元 字符 ， 因 为 它们 都 紧 接 在 [或 者 [人 之后。 如 果 连 字符 
不 在 字符 组 的 开头 ， 例 如 蕊 -/] ， 束 是 用 来 表示 范围 的 ， 在 本 例 中 束 是 
错误 的 用 法 。 


测验 答案 


o Bll 页 问题 的 答案 

为 什么 q[^u] 1 无 法 匹配 ‘Qantas’ AF ‘Iraq’ 7 

Qantas 无 法 匹配 的 原因 是 , 正则 表达 式 要 求 小 写 q, 而 Qantas 中 的 0 是 大 写 的 。 如 果 
AMAA Q[^u] ， 就 能 匹配 Qantas， 但 是 其 他 单词 又 不 在 结果 中 了 ， 因 为 它们 不 包括 
大 写 Q。[Qq] [^u] 则 能 找到 上 面 所 有 的 单词 。 

Irag 的 例子 有 点 迷惑 人 。 正则 表达 式 要 求 q 之 后 紧 跟 一 个 u 以 外 的 字符 ,这 就 排除 了 
q 处 在 行 尾 的 情况 。 通 常 来 说 ， 文 本 行 的 结尾 都 有 一 个 换行 字符 ， 但 是 我 首先 没有 提 
到 (非常 抱歉) egrep 会 在 检查 正则 表达 式 之 前 把 这 些 换行 符 去 掉 ， 所 以 在 行 尾 的 9 之 
后 ， 没 有 能 够 匹配 u 以 外 的 字符 。 

请 不 要 因此 灰心 才气 ( 注 4) 。 我 向 你 保证 ， 如 果 egrep 保留 换行 符 (许多 其 他 软件 会 
保留 这 些 符 号 ) ， 或 者 Iraq 后 紧 接 着 空格 或 者 其 他 单词 ， 这 一 行 就 能 匹配 。 理 解 工具 
软件 的 细节 固然 很 重要 ， 但 现在 我 只 布 望 读者 能 通过 这 个 例子 认识 到 : 一 个 字符 组 ， 
即使 是 排除 型 字符 组 ， 也 需要 匹配 一 个 字符 。 


在 '03.19.76 中， 点 号 是 元 字符 一 一 筷 能 够 匹配 任意 字符 〈 包 括 我 
们 期 望 的 连 字 符 、 句 号 和 和 斜 线 ) 。 不 过 ， 我 们 也 需要 明日 ， 点 号 可 以 匹 
配 任何 字符 ， 所 以 这 个 正则 表达 式 也 能 够 风 配 下 面 的 字符 串 : ‘lottery 
19 203319 7639’ 








numbers: 
所 以 ，'03[-./]19[-./]76 更 加 精确 ， 但 是 更 难 谈 ， 也 更 难 与 。 
03.19.76 更 容易 理解 ， 但 是 不 够 细致 。 我 们 应 该 选择 哪 一 个 呢 ? 这 取 
决 于 你 对 需要 检索 的 文本 的 了 解 ， 以 及 你 需要 达到 的 准确 程度 。 一 个 重 
要 但 常见 的 问题 是 ， 写 正则 表达 式 时 ， 我 们 需要 在 对 欲 检 索 文本 的 了 解 
程度 与 检索 精确 性 之 间 求 得 平衡 。 例 如 ， 如 果 我 们 知道 ， 针 对 某 个 检索 


MAS, [03.19.76 这 个 正则 表达 陈 基 本 不 可 能 匹配 不 期 望 的 结束 ， 使 用 
它 融 是 合理 的 。 要 想 正 硝 使 用 正则 表达 云 ， 清 径 地 了 解 目标 文本 是 非 锅 


重要 的 。 


多 选 结构 
Alternation 
LIER T RIAR 
| 是 一 个 非常 简捷 的 元 字符 ， 它 的 意思 是 “或 ”(or) . WIEC, 


我 们 能 够 把 不 同 的 子 表 达 式 组 合成 一 个 总 的 表达 式 ， 而 这 个 总 的 表达 式 
又 能 够 匹配 任意 的 和子 表达 式 。 假 如 'Bob 和 | Robert 是 两 个 表达 式 ， 但 
‘Bob|Robert, 瓯 是 能 够 同时 匹配 其 中 任意 一 个 的 正则 表达 式 。 在 这 样 的 

组 合 中 ， 子 表达 式 称 为 “多 选 分 文 (alternative) ”。 

回头 来 看 'gr[ealy 的 例子 ， 有 意思 的 是 ， 它 还 可 以 写作 
grey|gray ， 或 者 是 'gr Cale) y 。 后 者 用 括 亏 来 划 定 多 选 结构 的 范围 

(正常 情况 下 ， 插 号 也 是 元 字符 )。 请 注意 ，'gr[alely 不 符合 我 们 的 要 
求 一 一 在 这 里 ， 中 只 是 一 个 和 'a Sle 一 样 的 普通 字符 。 

对 表达 式 'gr Cale) y 来 说 ， 插 号 是 必须 的 ， 因 为 如 果 没 有 括号 ， 
graley 的 意思 束 成 J“'gra 或 者 'ey ”， 而 这 不 符合 我 们 的 要 求 。 多 选 结 
构 可 以 包括 很 多 字符 ， 但 不 能 超越 括号 的 界限 。 男 一 个 例子 是 
' (First|ist) -[Ss]treet QE 5) 。 事 实 上 ， 因 为 'First 和 '1st 都 以 'st 45 
尾 ， 我 们 可 以 把 这 个 结合 体 央 略 表示 为 '〈Fir|1〉st:[Ss]jtreet 。 这 样 可 能 
不 容易 看 得 清楚 ， 但 我 们 知道 ' (Firstllst) 与 " (firl1) st 表示 的 是 同一 
A 

下 面 是 一 些 用 多 选 结 构 来 拼写 我 名 字 的 例子 。 这 3 个 表达 式 是 一 样 
的 ， 请 仔细 比较 : 


Jeffrey|Jeffery 
‘Jeff (reylery)) 
‘Jeff (reler) y! 


殉国 拼写 法 如 下 : 
| (Geoff | Jeff) (reylery)| 


'(Geo|Je) ff (reylery) 
'(Geo|Je) ff (reler) y] 


最 后 要 注意 的 是 ， 这 3 个 表达 式 其 实 与 下 和 面 这 个 更 长 (但 是 更 入 


单 ) 的 表达 式 是 等 价 的 : 「Jeffrey|Geoffery|JefferylGeoffrey 。 它 们 只 
是 “殊途同归 ”而 已 。 
| gr[ealy 与 'gr Cale) y 的 例子 可 能 会 让 人 和 觉得 多 选 结 构 与 字符 组 
没 太 大 的 区 别 ， 但 是 请 留神 不 要 混 消 这 两 个 概念 。 一 个 字符 组 只 能 匹配 
目标 文本 中 的 单个 字符 ， 而 每 个 多 选 结 构 目 映 都 可 能 是 完整 的 正则 表达 
式 ， 都 可 以 史 配 任意 长 度 的 文本 。 
字符 组 基本 可 以 算是 一 门 独立 的 微型 语言 〈 例 如 ， 对 于 元 字符 ， 它 
们 有 目 己 的 规定 ) ， 而 多 选 结 构 是 “正则 表达 陈 语 言 主体 (main regular 
expression language) “的 一 部 分 。 你 将 会 肥 现 ， 这 两 者 部 非 弟 有 用 。 
同样 ， 在 一 个 包含 多 选 结 构 的 表达 式 中 使 用 脱 字 和 从 和 美元 从 的 时 候 
也 要 小 心 。 比 较 [AFrom|Subject|Date: : 和 '^ (From|Subject|Date) : - 
融会 友 现 ， 虽 然 它 们 看 起 来 与 之 前 的 E-mail 的 例子 很 相似 ， 匹 配 结果 
( 即 它们 的 用 处 〉 却 大 不 相同 。 第 一 个 表达 式 由 3 个 多 选 分 文 构成 ， 所 
以 它 能 匹配 “From, 或 者 'Subject 或 者 'Date: . ， 实 用 性 不 大 。 我 们 和布 
望 在 每 一 个 多 选 分 文 之 前 都 有 胶 字 符 ， 之 后 都 有 '": . 。 所 以 应 该 使 用 括 
号 来 “限制 ”(constrain ) 这 些 多 选 分 支 : 
| A(From|Subject|Date):- 
现在 3 个 多 选 分 文 都 党 括号 的 限制 ， 所 以 ， 这 个 正则 表达 陈 的 意思 
je: 死 配 一 行 的 起 始 位 置 ， 然 后 匹配 'AFrom 、'Subject 或 .Date 中 的 任 
是 一 个 ， 然 后 匹配 : . ， 所 以 ， 它 能 够 四 配 的 文本 是 : 
1) 行 起 始 ， 然 后 是 Fr'0:-m， 然 后 是 ‘: …， 
或 者 2) 行 起 始 ， 然 后 是 Su:b*j*e:c:t， 然 后 是 ‘“: …， 
或 者 3) 行 起 始 ， 然 后 是 Da't'e， 然 后 是 “: …。 
简单 点 说 ， 束 是 匹配 以 "Erom: -’, ‘Subject: … 或 者 "Date: … 开 头 的 
文本 行 ， 在 提取 E-mail 文件 中 的 信息 时 这 很 有 用 。 
下 面 是 一 个 例子 : 
6 egrep '“(From|Subject|Date): ' mailbox 
From: elvis@tabloid.org (The King) 
Subject: be seein' ya around 
Date: Mon; 23 Cet 2006 LLeoeels 
From: The Prez <president@whitehouse.gov> 


Date: Wed, 25 Oct 2006 8:36:24 
Subject: now, about your vote... 


忽略 大 小 与 


] 


Ignoring Differences in Capitalization 

E-mail header 的 例子 很 适合 用 来 说 明 不 区 分 大 小 号 (case- 
insensitive) 的 匹配 的 概念 。E-mail header 中 的 字段 类 型 (field type) 通 
稼 是 以 大 写字 母 开 头 的 ， 例 如 “Subject> 和 “From”， 但 是 E-mail 标 准 并 没 
有 对 大 小 写 进 行 严 格 的 规定 ， 所 以 ”DATE” 或 者 “from” 也 是 合法 的 字段 
类 型 。 但 是 ， 之 前 使 用 的 正则 表达 式 无 法 处 理 这 种 情况 。 

一 种 办 法 是 用 [TFE[Rr][Oo][Mm], WA From, ， 这 样 束 能 区 配 任 何 
ASL “from”, HRAL EIR AT SARE, RITA PINE E Y 
egrep 在 比较 时 忽略 大 小 号 ， 也 驳 征 进行 不 区 分 大 小 与 的 匹配 ， 这 样 吏 
EAER SFERE o 

ZIRE MD ze TEM AAT SSR MEFE RRE 
有 用 的 相关 特性 。egrep 的 命令 行 参数 “- 记 表示 进行 忽略 大 小 号 的 匹配 。 
把 -i 写 在 正则 表达 式 之 前 : 

%egrep-i'\(From|Subject|Date):'mailbox 

结 来 际 了 包括 之 前 的 内 容 外 ， 还 包含 这 一 行 : 

SUBJECT:MAKE MONEY FAST 

FE AiB BU eS ie CHP SB LQTS MRA). MURIE 
存 读者 记 住 它 。 在 下 面 的 章节 中 我 们 还 会 抑 到 其 他 的 简捷 特性 。 


单词 分 界 符 


Word Boundaries 

使 用 正则 表达 式 时 经 常会 过 到 的 一 个 问题 ， 期 望 苞 配 的 “单词 " 包 合 
在 另 一 个 单词 之 中 。 在 cat、gray 和 Smith 的 例子 中 ， 我 曾 提 到 过 这 个 问 
题 。 不 过 ， 茶 些 厂 本 的 egrep 对 单词 识别 提供 了 有 限 的 文 持 : tae HA 
词 分 界 符 〈 单 词 开 头 和 绪 束 的 位 置 ) 的 匹配 。 

如 果 你 的 egrep 文 持 “ 元 字符 序列 (metasequences) ” A< MAS, 
残 可 以 使 用 它们 来 匹配 单词 分 界 的 位 置 。 可 以 把 它们 想象 为 单词 版 本 的 
入 和 ， 分 别 用 来 匹配 单词 的 开头 和 结束 位 置 。 束 像 作 为 行销 点 的 及 
字符 和 美元 符 一 样 ， 它 们 错 定 了 正则 表达 式 的 其 他 部 分 ， 但 在 匹配 过 各 
中 并 不 对 应 到 任何 字符 。 表 达 式 \ 二 cat\>> 的 意思 是 “匹配 单词 的 开头 位 
置 ， 然 后 是 cia:t 这 3 个 字母 ， 然 后 是 单词 的 结束 位 置 "。 更 直接 点 说 整 
是 “匹配 cat 这 个 单词 >。 如 果 读 者 愿意 ， 也 可 以 用 \<cat 和 'cat\> ,来 匹 
配 以 cat 开 头 和 结束 的 单词 。 

WEB, < A > 本 身 并 不 是 元 字符 一 只 有 当 它 们 与 斜 线 结合 





起 来 的 时 候 ， 整 个 序列 才 具 有 特殊 音义。 这 就 是 我 称 其 为 “元 字 任 序 
列 ” 的 原因 。 重 要 的 是 它们 的 特殊 意义 ， 而 不 是 字符 的 个 数 ， 所 以 我 说 
的 “元 字符 ”和 “元 《字符 ) 序列 ”大 多 数 时候 是 等 价 的 。 

请 记 住 ， 并 不 是 所 有 版 本 的 egrep 都 文 持 单 词 分 界 侍 ， 即 使 是 文 持 
的 版 本 也 不 见得 聪明 到 能 “认得 出 ? 殉 语 单词 。“ 单 词 的 起 始 位 置 ? 只 不 过 
是 一 系列 字母 和 数字 符号 (alphanumeric characters) 开始 的 位 置 ， 而 “ 结 
束 位 置 ? 束 是 它们 结尾 的 地 方 。 下 一 页 的 图 1-2 说 明了 一 行 简 单 文 本 中 的 
单词 分 界 符 。 

(egrep 认定 的 ) 单词 开头 位 置 用 同上 的 区 头 标识 ， 单 词 结束 位 置 
用 癌 下 的 箭头 标识 。 我 们 看 到 , “日 词 的 开始 和 结束 ”准确 地 说 是 “字母 
数字 从 号 的 开始 和 结束 *”， 不 过 这 样 说 太 打 烦 了。 


| | || 


ae - 2 i . l | | 
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j \< 能 够 匹配 的 位 置 | \> 能 够 匹配 的 位 置 PiS 
图 1-2: “单词 * 的 起 始 和 结束 位 置 
Ae 
In a Nutshell 


表 1-1 总 结 了 我 们 已 经 介绍 过 的 元 字符 。 
表 1-1: 至 今 为 止 所 见 的 元 字符 小 结 





TFH nS 


AI 单个 任意 字符 
[ee] 字符 组 列 出 的 任意 字符 
As] 排除 型 字符 组 未 列 出 的 任意 字符 
脱 字 符 行 的 起 始 位 置 
美元 符 行 的 结束 位 置 
\< BAT B=) F 单词 的 起 始 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 


肥 儿 线 -大 于 单词 的 结束 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 


| 学 线 匹配 分 陪 两 边 的 任意 一 个 表达 式 
i) 16 限制 坚 线 的 任用 范围 ， 其 他 功能 下 文 讨论 


FMEA ILA ER: 

e 在 字符 组 内 部 ， 元 字符 的 定义 规则 《及 它们 的 意义 ) 是 不 一 样 
的 。 例 如 ， 在 字符 组 外 部 ， 点 号 是 元 字符 ， 但 是 在 内 部 则 不 是 如 此 。 相 
反 ， 连 字符 只 有 在 字符 组 内 部 《这 是 普 裔 情况) Aero, APA 
是 。 脱 字符 在 字符 组 外 部 表示 一 个 意思 ， 在 字符 组 内 部 案 接 看 [时 表示 
男 一 个 意思 ， 其 他 情况 下 又 表 示 别 的 意思 。 

e 不 要 混 消 多 选项 和 字符 组 。 字 人 符 组 '[abc] 和 多 选项 "alblc) 固然 
表示 同一 个 意思 ， 但 是 这 个 例子 中 的 相似 性 并 不 能 推广 开 来 。 无 论 列 出 
的 字符 有 多 少 ， 字 符 组 只 能 匹配 一 个 字符 。 相 反 ， 多 选项 可 以 匹配 任意 
长 度 的 文本 ， 每 个 多 选项 可 能 匹配 的 文本 都 是 独立 的 ， 例 如 下 入 C1, 
000, 000|million|thousand-thou) \>  。 不 过 ， 多 选项 没有 像 字符 组 那样 
的 排除 功能 。 

e 排 除 型 字符 组 是 表示 所 有 未 列 出 字符 的 字符 组 的 简便 方法 。 因 
此 ，'[Ax] 的 意思 并 不 是 “只 有 当 这 个 位 置 不 是 x 时 才能 匹配 ?”， 而 是 
说 “匹配 一 个 不 等 于 X 的 字符 ”。 其 中 的 关 别 很 细微 ， 但 很 重要 。 例 如 ， 
前 面 的 概念 可 以 匹配 一 个 空 行 ， 而 '[Ax] 则 不 行 。 

© 

iB BE FEVL ACI AX aK) (s15) CES) 。 

e 日 前 介绍 过 的 知识 都 很 有 用 ， 但 “可 选项 (optional) ”和 “计数 
(counting) ”元 素 更 重要 ， 下 文 将 马上 介绍 。 





可 选项 元 系 


Optional Items 

现在 来 看 color 和 colour 的 匹配 。 它 们 的 区 别 在 于 ， 后 面 的 单词 比 前 
面 的 多 一 个 u， 我 们 可 以 用 'colou? r 来 解决 这 个 问题 。 元 字符 '? (也 
WERS) 代表 可 选项 。 把 它 加 在 一 个 字符 的 后 面 ， 束 表示 此 处 容许 出 
现 这 个 字符 ， 不 过 它 的 出 现 并 非 匹 配 成 功 的 必要 条 件 。 

Pu? 这 个 元 字符 与 我 们 之 前 看 到 的 元 字符 都 不 相同 ， 它 只 作用 于 
ZA ACB og. lit, | colou? r 的 意思 是 : 'c, Bacio, A 
fe ‘1, 然后 征 'o ， IR Fare u? p3 JE T, o 

fu? 和 是 必然 能 够 匹配 成 功 的 ， 有 时 和 它 会 匹配 一 个 u， 其 他 时 候 则 
不 匹配 任何 字符 。 关 键 在 于 ， 无 论 u 是 否 出 现 ， 死 配 都 是 成 功 的 。 但 这 
并 不 等 于 ， 任 何 包含 ? 的 正则 表达 式 都 永远 能 匹配 成 功 。 例 如 ，'colo 
和 mu? 都 能 在 “semicolon' 中 匹配 成 功 《〈 前 者 匹配 单词 中 的 colo， 后 者 什 
么 字符 都 没有 匹配 ) 。 可 是 最 后 的 无 法 匹配 ， 因 此 ， 最 终 "colou? r 
无 法 匹配 semicolon 。 

来 看 吨 一 个 例子 ， 我 们 需要 匹配 表示 7 月 4 日 《July fourth) 的 文 
本 ， 其 中 月 份 可 能 写作 July 或 是 Jul， 而 日 期 可 能 写作 fourth、4th 或 者 
是 4。 显 然 ， 我 们 可 以 使 用 ' (JulylJul) - Cfourth|4thi4) ， 但 也 可 以 找 
些 其 他 的 办 法 来 解决 这 个 问题 。 

Be, BNE! (JulyJul) 缩短 为 ‘(July?) 。 你 明日 这 种 等 价 
变换 吗 ? 删除 | Zia, PURI SS. SPARTA LA, (AAR 
留 括号 显得 更 整 污 一 些 。 于 是 我 们 得 到 | July? - Cfourth|4th|4) 。 

现在 来 看 第 二 部 分 ， 我 们 可 以 把 '4thl4 简化 为 4 Cth) ? 。 我 们 看 
到 ， 现 在 '? 作用 的 元 系 古 整个 插 写 了 。 括 写 内 的 表达 式 可 以 任意 复 
溢 ， 但 是 “从 插 写 外 来 看 ”它们 是 个 整体 。 界 定 '? 的 作用 对 象 〈 还 可 以 
划 定 我 即将 介绍 的 其 他 类 似 元 字符 的 作用 对 象 ) 是 括 写 的 主要 用 途 之 


我 们 的 表达 式 现 在 成 了 July? - (fourthl4 (th) ? ) 。 尺 管 它 包含 
了 许多 元 字符 ， 而 且 有 通 套 的 括号 ， 但 理解 起 来 并 不 困难 。 我 们 花 了 祖 
当 的 工夫 来 讲解 这 两 个 简单 的 例子， 但 同时 也 接触 到 了 一 些 相 关 的 知 
识 ， 它 们 相当 有 助 于 一 一 或 许 你 现在 还 意识 不 到 一 一 我 们 理解 正则 表达 
式 。 同 样 ， 通 过 这 些 讲解 ， 我 们 也 积累 了 依靠 不 同 思 路 解决 问题 的 经 
验 。 在 阅读 本 书 《〈 同 时 也 是 在 加 深 理 解 ) 寻找 复杂 问题 的 最 优 解决 方案 
的 过 程 中 ， 你 可 能 会 发 现 姑 感 可 能 在 不 断 涌现 。 正 则 表达 式 不 是 死板 的 








BA, CRRENAK. 
其 他 量词 : 重复 出 现 


Other Quantifiers:Repetition 

[+ 《加 号 ) 和 大 CHS) 的 作用 与 问号 类 似 。 元 字符 + K 
示 "“ 之 前 么 邻 的 元 际 出 现 一 次 或 多 次 ”， 而 "大 ,表示 “之 前 紧邻 的 元 素 出 现 
任意 多 次 ， 或 者 不 出 现 ?。 换 种 说 法 束 是 ，…. 大 ,表示 “匹配 尽 可 能 多 的 
次 数 ， 如 果实 在 无 法 匹配 ， 也 不 要 紧 ”"。'...+ 的 意思 与 之 类 似 ， 也 是 匹 
配 尺 可 能 多 的 次 数 ， 但 如 有 果 连 一 次 匹配 都 无 法 完成 ， 束 报告 失败 。 问 
Ss. INS MB Sik 3 个 元 字符 ， 统 称 为 量词 (quantifiers〉， 因 为 它们 限 
定 了 所 作用 元 紊 的 匹配 次 数 。 

5.2? 一样， 正则 表达 式 中 的 '…. 类 ,也 是 永远 不 会 匹配 失败 的 ， 
区 别 只 在 于 它们 的 匹配 结果 。 而 '...+ 在 无 法 进行 任何 一 次 匹配 时 ， 会 
报告 匹配 失败 。 

举例 来 说 ，…? 能够 匹配 一 个 可 能 出 现 的 空格 ， 但 是 … 大 ,能够 匹 
配 任 意 多 个 空格 。 我 们 可 以 用 这 些 量词 来 简化 第 9 页 和 HI[1-6]> 的 例 
子 。 按 照 HTML 规 范 〈 注 7) ， 在 tag 结 尾 的 > 字符 之 前 ， 可 以 出 现任 意 
长 度 的 空格 ， 例 如 过 H3:> 或 者 <H4…> 之 。 把 类 加 入 正则 表达 式 中 的 
可 能 出 现 (但 不 是 必须 ) 空格 的 位 置 ， 束 得 到 'H[1-6]- x o EAR 
omar 因为 空格 并 不 是 必须 出 现 的 ， 但 其 他 形式 的 tag 也 能 
Es 

接 下 来 看 类 似 二 HR:SIZE=14 二 这 样 的 HTML tag, ÉRIK- Kile 
为 14 像 素 的 穿越 屏幕 的 水 平 线 。 与 <H3 的 例子 一 样 ， 在 最 后 的 尖 括 
写 之 前 可 以 出 现任 意 多 个 空格 。 此 外 ， 在 等 写 两 边 也 容许 出 现任 总 多 个 
空格 。 最 后 ， 在 HR 和 SIZE 之 间 必 须 有 人 至少 一 个 空格 。 为 了 处 理 更 多 的 
空格 ， 我 们 可 以 在 … 后 请 加 类 ， 不 过 最 好 还 是 改写 为 + o MEMA 
人 至少 有 一 个 空格 出 现 ， 所 以 它 与 … 类 是 完全 等 价 的 ， 只 不 过 更 简洁。 
MARINIE KHR +SIZE x= x14 x> 。 

尽管 这 个 表达 式 不 受 空格 数目 的 限制 ， 但 它 仍然 受 tag 中 直线 尺寸 
大 小 的 约束 。 我 们 要 找 的 不 仅仅 是 高 度 为 14 的 ttg， 而 是 所 有 这 些 tag。 
所 以 ， 我 们 必须 用 能 匹配 普通 数值 (general number) WRIA ARK H 
14 。 在 这 里 , “UE” (number) 古 由 一 位 或 多 位 数字 Cdigits) 构成 
的 。 '[0-9] 可 以 匹配 一 个 数字 ， 因 为 “至 少 出 现 一 次 ”， 上 所 以 我 们 使 用 加 
Sil, AREH [0-9]+ 符 换 '14 。《【 一 个 字符 组 是 一 个 “元 


R” uit) ， 所 以 它 可 以 直接 加 加 号 、 星 号 等 ， 而 不 需要 用 括号 。 ) 

这 样 我 们 就 得 到 了 '<HR.+SIZE. 大 =: 类 [0-9]+: 大 之 ， 尽 管 我 用 了 
粗 体 标识 元 字符 ， 用 空格 来 分 隔 各 个 元 素 ， 而 且 使 用 了 “看 得 见 的 空格 
从” ”， 这 个 表达 式 仍然 不 容易 看 惟 〈 兽 好 ，egrep 提 供 了 -i 的 参数 号 
15， 这 样 我 就 不 需要 用 '[Hh][Rr] 来 表示 'HR 了 ) o AW, '<HR+SIZE 
K=*[0-9]t* > 更 令 人 迷惑 。 这 个 表达 式 之 所 以 看 起 来 有 些 说 异 ， 是 
因为 星 号 和 加 号 作用 的 对 象 大 都 是 空格 ， 而 人 眼 习 惯 于 把 空格 和 普通 字 
符 区 分 开 来 。 在 阅读 正则 表达 式 时 ， 我 们 必须 改变 这 种 习惯 ， 因 为 空格 
符 也 是 普通 字符 之 一 ， 它 与 j 或 者 4 这 样 的 字符 没有 任何 差别 (在 后 面 
的 章节 中 ， 我 们 会 看 到 ， 某 些 工 具 软 件 支 持 忽略 空格 的 特殊 模式 〉。 

我 们 继续 这 个 例子 ， 如 果 尺 寸 这 个 属性 也 是 可 选 的 ， 也 就 是 说 去 
HR 之 了 怠 代 表 默 认 局 度 的 直线 《〈 同 样 ， 在 > 之 前 也 可 能 出 现 空格 ) 。 你 
能 修改 我 们 的 正则 表达 式 ， 让 它 匹 配 这 两 种 类 型 的 tag 吗 ? 解决 问题 的 
关键 在 于 明白 表示 尺寸 的 文本 是 可 选 出 现 的 (这 是 个 暗示 ) 。g 请 翻 到 
下 一 页 查看 答案 。 

请 仔细 观察 最 后 (答案 中 ) 的 表达 式 ， 体 会 问号 、 星 号 和 加 号 之 间 
ee 以 及 它们 在 实际 应 用 中 的 真正 作用 。 下 一 页 的 表 1-2 总 结 了 它 
门 的 意义 。 

请 注意 ， 每 个 量词 都 规定 了 匹配 成 功 至 少 需要 的 次 数 下 限 ， 以 及 学 
rr gee 对 某 些 量词 来 说 ， 下 限 是 0， 对 某 些 量词 来 说 ， 上 
限 是 无 穷 大 。 


把 一 个 子 表达 式 变 为 可 选项 
o 19 页 问题 的 答案 


在 本 例 中 ,“ 可 选 出 现 ”(optional) 的 意思 是 可 以 但 并 不 必须 匹配 一 次 。 这 需要 使 用 ? )， 
因为 可 选项 多 于 一 个 字符 ， 所 以 我 们 必须 使 用 括号 : (…)? J。 把 它 插入 表达 式 中 ,就 


得 到 <HR (++ SIZE**="* [0-9] +) ?2e*>， 

请 注意 ,结尾 的 “xj 在 (…) ?41 以外。 这样 就 能 应 付 <HR*>j 之 类 的 情况 。 如 果 我 们 把 它 
包含 在 括号 内 ， 则 只 有 在 出 现 “SIZE=…” 这 上 段 文本 的 情况 下 才 容 许 在 > 之 前 出 现 空 
同样 请 注意 SIZE 之 前 的 +H 包含 在 括号 内 。 如果 把 它 拿 到 括号 之 外 , HR 之 后 就 必须 紧 
跟 至 少 一 个 空格 ， 即 使 SIZE 没有 出 现 也 是 如 此 。 这 样 “<HR> ”就 无 法 匹配 了 ， 





表 1-2: “表示 重复 的 元 字符 ”人 沼 义 小 结 


次 数 下 限 次 数 上 限 
> a “hh 也 可 以 只 出 现 一 次 (ERTE) 
可 以 出 现 无 数 次 ， 也 可 以 不 出 现 (任意 次 数 均 可 ) 
+ |1 | 无 | 可 以 出 现 无 数 炊 ， 但 至 少 要 出 现 一 次 (至 少 一 次 ) 
规定 重 现 次 数 的 范围 : 区间 
某 些 版 本 的 egrep 能 够 使 用 元 字符 序列 来 自 定 义 重 现 次 数 的 区 间 : 
...{min，max} 。 这 称 为 “区 间 量 词 Cinterval quantifier) ”. PlUl, |... 
{3，12} 能 够 容许 的 重 现 次 数 在 3 到 12 之 间 。 有 人 可 能 会 用 '[a-zA-Z] 
{1, 5} 来 匹配 美国 的 股票 代码 a 到 5 个 字母 )》 。 问 号 对 应 的 区 间 量 词 
是 {0，1}。 
文 持 区 则 表示 法 的 egrep 的 版 本 并 不 多 ， 但 有 许多 为 外 的 工 其 文 持 
它 。 在 第 3 章 我 们 会 仔细 考察 目前 经 常 使 用 的 元 字符 ， 那 时 候 会 涉及 区 
间 的 支持 问题 。 


Hya H 


Parentheses and Backreferences 

到 目前 为 止 ， 我 们 已 经 见 过 插 写 的 两 种 用 途 : PR le e H ye E; 
将 在 干 字符 组 合 为 一 个 单元 ， 受 问号 或 性 号 之 类 量词 的 作用 。 现 在 我 要 
介绍 括号 的 另 一 种 用 途 ， 虽 然 它 在 egrep 中 并 不 常见 《〈 不 过 流行 的 GNU 
版 本 确实 支持 这 一 功能 ) ， 但 在 其 他 工具 软件 中 很 常见 。 

在 许多 流派 〈flavor〉 WIE RASH, fe sree ide’ ener 
的 子 表 达 式 匹配 的 文本 。 在 解决 本章 开 始 提 到 的 单词 重复 问题 时 融会 用 
到 这 个 功能 。 如 采 我 们 确切 知道 重复 单词 的 第 一 个 单词 〈 比 方 说 这 个 单 
lal Wize “the”) ， 束 能 够 明确 无 误 地 找到 它 ， 例 如 'the:the 。 这 样 或 许 还 


是 会 匹配 到 SS "9577 的 情况 ， 但 如 果 我 们 的 egrep 支 持 在 第 15 页 提 到 
Sta op FRG Athe tha>, ， 这 个 问题 瓯 很 容易 解决 。 我 们 可 以 添加 - 
+ 把 这 个 表达 式 变 得 更 灵活 。 

然而 ， 穷 淮 所 有 可 能 出 现 的 重复 单词 显然 是 不 可 能 完成 的 任务 。 如 
RPA SEVERE PS i, Be POR MEAN Blea SEE”, 
WIE Sf. WRK Negrep sz #“)z In] S| AY Cbackreference) ”， 残 可 以 
这 么 做 。 反 同 引 用 是 正则 表达 式 的 特性 之 一 ， 它 容许 我 们 匹配 与 表达 式 
先前 部 分 匹配 的 同样 的 文本 。 





BNI FG '\<the-+the\>, 中 的 第 一 个 the 葵 换 为 能 够 匹配 任意 单词 
的 正则 表达 式 |[A-Za-z]+ ;然后 在 两 六 加 上 括号 《原因 见 下 段 ) ; 最 
后 把 后 一 个 ‘the’ 痊 换 为 特殊 的 元 字符 序列 \1 ， 就 得 到 了 \< [A-Za- 
ZIP) ANA 

在 文 持 反 回 引用 的 工具 软件 中 ， 括 号 能 够 “记忆 ?其 中 的 子 表达 式 匹 
配 的 文本 ， 不 论 这 些 文本 是 什么 ， 元 字符 序列 \1 都 能 记 住 它们 。 

当然 ， 在 一 个 表达 式 中 我 们 可 以 使 用 多 个 括号。 再 用 \1 、 2 、 
\3 等 来 表示 第 一 、 第 二 、 和 第 三 组 括号 匹配 的 文本 。 括 号 是 按照 开 括 
号 ”5 (? 从 左 至 右 的 出 现 顺 序 进行 的 ， 所 以 『〈[a-z]) 〈[0-9]) \1\2, 中 的 
AL 代表 '[a-z] 匹配 的 内 容 ， 而 \2 代表 上 [0-9] 匹配 的 内 容 。 

在 ‘the:the’ 的 例子 中 ，'[A-Za-z]+ 匹配 第 一 个 *the"。 因 为 这 个 子 表 
达 式 在 括 写 中 ， 所 以 \1 RRALLA E the. WR + 能 够 岂 配 ， 后 面 
的 AL 要 匹配 的 文本 就 是 he"。 如 果 AL 也 能 成 功 匹 配 ， 最 后 的 人 > 对 应 
单词 的 结尾 (如 果 文 本 是 ‘the:theft* ， 这 一 条 就 不 满足 ) 。 如 果 整 个 表达 
式 能 罗 配 成 功 ， 我 们 整 得 到 一 个 重复 单词 。 有 的 午 复 单词 并 不 是 错误 ， 
例如 ‘that that? (译注 3) ， 这 并 不 是 正则 表达 陈 的 错误 ， 真 正 的 判断 还 
得 笔 人 。 我 决定 使 用 上 面 这 个 例子 的 时 候 ， 已 经 用 这 个 表达 却 检 否 过 本 
FAUNAS CBOE ESCH NAS 和 反 回 引用 的 egrep) 。 我 
还 使 用 了 第 15 页 提 到 的 忽略 大 小 写 的 参数 -i 来 拓宽 它 的 适用 范围 《〈 注 
8) ， 所 以 "The'the'" 这 样 的 单词 重复 也 能 提取 出 来 。 

我 使 用 的 命令 如 下 : 

%egrep-i\=([a-z]+)+\1\> files... 

结果 令 我 惊奇 ， 居 然 找 到 了 14 组 重复 单词 。 我 把 它们 全 都 改正 了 ， 
而 且 把 这 个 表达 陈 添 加 到 我 用 来 检查 本 书 扩 写 错误 的 工具 中 ， 保 证 从 此 
以 后 全 书 中 不 会 出 现 这 样 的 错误 。 

尽管 这 个 表达 式 很 有 用 ， 我 们 仍然 需要 重视 它 的 局 限 。 因 为 egrep 
把 每 行文 字 都 当 作 一 个 独立 部 分 来 看 符 ， 所 以 如 条 单 词 重 复 的 第 一 个 单 
词 在 荣 行 末尾 ， 第 二 个 单词 在 下 一 行 的 开头 ， 这 个 表达 陈 台 无 法 找到 。 
所 以 ， 我 们 需要 更 加 灵活 的 工具 ， 下 一 章 我 们 会 看 到 这 方面 的 例子 。 


神奇 的 转 义 
The Great Escape 


有 个 重要 的 问题 我 尚未 提 及 ， 即 : WR a BEVEL FE PE AS ey Bt 
旦 元 字符 ， 正 则 表达 云 会 如 何 处 理 呢 ? 例如 ， 如 采 我 媳 机 检索 互联 网 的 


egawatt*com puting 的 





主机 名 ega.att.com， 使 用 'ega.att.com 可 能 得 到 
结 未 。 还 记得 吗 ? | 本 里 束 是 元 字符 ， 它 可 以 匹配 任何 字符 ， 包 括 空 
格 。 

真正 昂 配 文本 中 点 号 的 元 序列 应 该 是 反 斜 线 Cbackslash) JERS 
的 组 合 : ‘ega\.att\.com o [\ 称 为 “ 转 义 的 反 写 ”或 者 “ 转 义 的 句号 ”， 这 
样 的 办 法 适用 于 所 有 有 的 元 字符 ， 不 过 在 字符 组 内 部 无 效 ( 注 9) 。 

这 样 使 用 的 反 斜 线 称 为 “ 转 义 符 Cescape) ”一 一 它 作 用 的 元 字符 会 
失去 特殊 食 义 ， 成 了 普通 字符 。 如 果 你 愿意， 也 可 以 把 转 义 从 和 它 之 后 
的 元 字符 看 作 特 殊 的 元 字符 序列 ， 这 个 元 字符 序列 匹配 的 是 元 字符 对 应 
的 普通 字符 。 这 两 种 看 法 是 等 价 的 。 

我 们 还 可 以 用 和 (a-zA-Z) 来 匹配 一 个 括号 内 的 单词 ， 例 
On’ (very) “"。 在 开 闭 括号 之 前 的 反 斜 线 消除 了 开 闭 括号 的 特殊 意义 ， 
于 是 他 们 能 够 匹配 文本 中 的 开 闭 括 号 。 

OAR RBar AERA AN EOE FT BORG AT Tk OL ACRE PP BY AS Ti 
E. PIU, RICA, FERRARI EAE NK. ND. M ME 
字符 序列 对 竺 。 在 后 面 的 章节 中 我 们 会 看 到 更 多 的 例子 。 





基础 知识 拓展 


Expanding the Foundation 

我 希望 ， 前 面 的 例子 和 人 解释 已 经 帮助 读者 牢固 地 打下 了 正则 表达 式 
的 基础 ， 也 请 谈 痢 明日 ， 这 些 例子 都 很 乒 院 ， 我 们 需要 和 苞 握 的 还 有 很 
多 


AZ o 
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Linguistic Diversification 

我 已 经 介绍 过 大 多 数 版 本 的 egrep 支 持 的 正则 表达 式 的 特性 ， 这 样 
的 特性 还 有 很 多 ， 其 中 一 些 并 不 是 所 有 的 版 本 部 支持 ， 这 个 问题 留 到 后 
面 的 革 市 讲解 。 

任何 语言 中 都 存在 不 同 的 方言 和 口音 ， 很 不 幸 ， 正 则 表达 式 也 一 
样 。 情 况 似 乎 是 ， 每 一 种 文 持 正 则 表达 去 的 语言 都 提供 了 目 己 的 “ 改 
进 "。 正 则 表达 式 不 断 友 展 ， 但 多 年 的 变化 也 千丈 了 数目 众多 的 正则 表 
AAMIR” (flavor) 。 我 们 会 在 下 面 的 章节 中 见 到 各 种 例子 。 


正则 表达 式 的 目标 


The Goal of a Regular Expression 

从 最 宏观 的 角度 看 ， 一 个 正则 表达 式 要 么 能 够 罗 配 给 定 文 本 对 
egrep 来 说 ， 束 是 一 行文 本 ) 中 的 东 些 字符 ， 要 么 不 能 匹配 。 在 编写 正 
则 未 达 云 的 时 候 ， 我 们 必须 进行 权衡 : 匹配 符合 要 求 的 文本 ， 同 时 忽略 
不 符合 要 求 的 文本 。 

尽管 egrep 不 关心 匹配 文本 在 行 中 的 位 置 ， 但 对 正则 表达 却 的 其 他 
应 用 来 说 ， 这 个 问题 却 很 重要 。 如 果 文 本 是 这 样 : 

...Zip is 44272.If you write,send $4.95 to cover postage and... 

我 们 只 希望 找 出 包含 [0-9]+ KAE T, ANB BEVERY 
数字 。 相 反 ， 如 采 我 们 需要 操作 这 些 数字 《例如 保存 到 文件 、 述 加 、 和 蔡 
eg enn: © nee 
那些 数字 。 


更 多 的 例子 


A Few More Examples 

在 任何 语言 中 ， 经 验 都 是 非常 重要 的 ， 所 以 我 会 给 出 更 多 用 正则 表 
IA SUC BC ay FA SOAS RY IP o 

Fy EMU AIA SKIN, R MRAR PAY TR, 
另 一 半 的 工夫 用 来 考虑 如 何 忽略 那些 不 符合 要 求 的 文本 。 在 实践 中 ， 这 
两 方面 都 非常 重要 ， 但 征 目 前 我 们 只 关注 “获得 成 功 匹 配 ?的 方面 。 即 使 
拒 没 有 对 这 坚 例子 进行 聂 全面 彻 底 的 解释 ， 它 们 仍然 能 够 提供 有 用 的 局 


ZN o 

变量 名 

许多 程序 设计 语言 都 有 标识 从 〈identifier， 例 如 变量 名 ) 的 概念 ， 
标识 符 只 包含 字母 、 数 字 以 及 下 转 线 ， 但 不 能 以 数字 开头 。 我 们 可 以 用 
[a-zA-Z_][a-zA-Z_0-9] > 来 匹配 标识 符 。 第 一 个 字符 组 匹配 可 能 出 现 
的 第 一 个 字符 ， 第 二 个 《包括 对 应 的 "大 ) 匹配 余下 的 字符 。 如 果 标 识 
符 的 长 度 有 限制 ， 例 如 最 长 只 能 是 32 个 字符 ， 又 能 使 用 第 20 页 介绍 的 区 
问 量 词 tmin，max} ， 我 们 可 以 用 '{0，31} 来 奉 代 最 后 的 ' 类 ，。 

引号 内 的 字符 串 

匹配 引号 内 的 字符 串 最 简单 的 办 法 是 使 用 这 个 表达 式 : A" 


11 
J 


两 端的 引号 用 来 匹配 字符 串 开 头 和 结尾 的 引号 。 在 这 两 个 引号 之 间 
的 文本 可 以 包括 双 引 号 之 外 的 任何 字符 。 所 以 我 们 用 '"] 来 匹配 除 双 
引号 之 外 的 任何 字 从 ， 用 "类 来 表示 两 个 引号 之 间 可 以 存在 任意 数目 的 
非 双 引号 字符 。 

RTI SFFR, EAH ESRR) 的 定义 是 ， 两 病 的 双 引 号 之 
YAY DA SL Bem eee S| Ss, BA" nail-the-2\'" x4 " -plank " 。 
在 后 面 的 章节 讲解 匹配 实际 进行 的 细节 时 ， 我 们 会 多 次 遇 到 这 个 例子 。 

美元 金额 (可 能 包含 小 数 ) 

|\$[0-9]+ (\.[0-9][0-9]) ?是 一 种 匹配 美元 金额 的 办 法 。 

从 整体 上 看 ， 这 个 表达 式 很 简单 ， 分 为 三 部 分 : M$ 、'...+ 和 
“【《...) ? ， 可 以 大 臻 理解 为 : 一 个 美元 从 写 ， 然 后 是 一 组 学 从 ， 最 后 
可 能 还 有 另 一 组 字符 。 这 里 的 “字符 ? 指 的 是 数字 《一 组 数字 构成 一 个 数 
E) ,“ 另 一 组 字符 ?是 由 一 个 小 数 点 和 两 位 数字 构成 的 。 

从 几 个 方面 来 看 ， 这 个 表达 式 还 很 简陋 。 比 如 ， 它 只 能 接受 
$1000， 而 无 法 接受 $1，000。 它 确实 能 接受 可 能 出 现 的 小 数 部 分 ， 但 对 
于 egrep 来 说 音义 不 大 。 因 为 egrep 从 不 关心 匹配 文字 的 内 容 ， 而 只 关心 
征 含 存在 匹配 。 处 理 可 能 出 现 的 小 数 部 分 对 整个 表达 陈 能 含 匹 配 并 没有 


影 啊 。 

但 是 ， 如 果 我 们 需要 找到 只 包含 价格 而 不 含 其 他 字符 的 行 ， 倒 是 可 
DATE IRS BETA SUPA vi EA... 。 这 样 一 来 ， 可 选 的 小 数 部 分 残 变 得 很 
重要 了 ， 因 为 在 金额 数 人 和 换行 人 符 之 间 是 售 存 在 小 数 部 分 ， 决 定 了 整个 
KIA TU DL BU RR AE FB FTE FEF o 

Fy, IK-S EM ZEIA SORTA VE AC 'S.49’. PRAT REA AEI E Hak 
BES He WS HAR Ie ea, ANIA PR EI FEIK RIESE TRAY, BRB 
第 5 章 (194) 揭晓 。 

HTTP/HTML URL 

Web UREL 的 形 却 可 能 有 很 多 种 ， 所 以 构造 一 个 能 够 匹配 所 有 形 却 的 
UREL 的 正则 表达 式 顺 有 难度 。 不 过 ， 和 和 人 微 降低 一 点 要 求 的 话 ， 我 们 能 够 
用 一 个 相当 简单 的 正则 表达 式 来 匹配 大 多 数 和 常见 的 ”URL。 进 行 这 种 检 
索 的 原因 之 一 是 ， 我 只 能 大 概 记 得 在 收 到 的 东 封 邮件 中 有 一 个 URL 地 
址 ， 不 过 一 见 到 它 我 束 能 认 出 来 。 

常见 的 HTTP/HTML URL 是 下 面 这 样 的 : 

http://hostname/path.html 

当然 ，.htm 的 结尾 也 很 第 见 。 

hostname 〈 主 机 名 ， 例 如 www.yahoo.com) 的 规则 比较 复杂 ， 但 是 
我 们 知道 ， 跟 在 ‘http: /之 后 的 就 有 可 能 是 主机 名 ， 上 所 以 这 个 正则 表达 
式 就 很 简单 ，'[-a-z0-9_.]+ 。path 部 分 的 变化 更 多 ， 所 以 我 们 需要 使 用 
[-a-z0-9_: @&? =+，.! /~*%$]* 。 请 注意 ， 连 字符 必须 放 在 字符 
组 的 开头 ， 剑 证 它 是 一 个 普通 字符 ， 而 不 是 用 来 表示 范围 《 军 9) 。 

ERA ROKR, BATE RY IE RETA TUE: 

%egrep-i '\<http://[-a-z0-9_.:]+/[-a-z0-9_:@&?=+,.!/~ * %$] * \. html? 
\>' files 

因为 我 们 降低 了 对 匹配 的 要 求 ， 所 以 ttp: //..../foo.html’ t #2 
配 ， 虽 然 它 显然 不 是 一 个 合法 的 ”URL。 我 们 需要 关心 这 一 点 吗 ? 这 取 
次 于 具体 的 情况 。 如 采 我 只 是 需要 扫 摘 目 己 的 E-mail， 得 到 一 些 错 误 疆 
条 并 不 算是 问题 。 而 且 ， 我 没准 会 用 更 向 单 的 表达 式 : 

%egrep-i '\<http://[A] * \.html?\>' files... 

在 深入 了 解 如 何 调 校 正则 表达 式 之 后 ， 读 者 会 明日 ， 要 想 在 复杂 性 
和 完整 性 之 间 求 得 平衡 ， 一 个 重要 的 因 系 是 了 解 符 搜索 的 文本 。 下 一 
划 ， 我 们 会 更 详细 地 考察 这 个 例子 。 

HTML tag 

对 egrep 这 样 的 工具 来 说 ， 简 单 地 匹配 包含 HIML  “ tag 的 行 并 不 常 


见 ， 也 没什么 用 。 人 但是， 探索 如 何 准确 匹配 一 个 HIML tag 却 是 相当 有 
局 发 的 ， 在 下 一 章 深 入 接触 更 局 级 的 工具 时 ， 这 一 点 尤其 明显 。 

简单 的 例子 包括 :<TITLE>: 和 :<HR>:， 我 们 可 能 会 想到 <, 
> 。 这 个 简单 的 表达 式 往 往 是 最 直接 的 想法 ， 但 它 显然 是 不 对 的 。 去 . 
A> 的 意思 是 ,“ 先 匹配 一 个 “二 :， 然 后 是 任意 多 个 任意 字符 ， 然 后 
是 :> 汪 。 所 以 ， 它 无 疑 能 够 开 配 不 止 一 个 tag 的 内 容 ， 例 如 'this 


标记 的 内 容 。 

也 许 结 末 有 点 出 乎 你 的 意料 ， 但 是 我 们 目前 还 只 在 第 1%, XIE 
表达 式 的 理解 也 不 够 深入 。 我 之 所 以 举 这 个 例子 ， 是 想 说 明正 则 表达 式 
并 不 复杂 ， 但 是 如 果 你 不 真正 和 弄 疏 它们 ， 可 能 会 被 搞 得 军 头 转 同 。 在 下 
面 的 几 章 中 ， 我 们 会 学 习 理 解 和 解决 这 个 问题 需要 的 所 有 细节 。 

表示 时 刻 的 文字 ， 例 如 “9: 17 am” 或 者 “12: 30 pm” 

史 配 表示 时 刻 的 文字 可 能 有 不 同 的 严格 程度 。 

| [0-9]?[0-9]:[0-9][0-9]:(amjpm) 

能 够 匹配 9，17:am 或 者 12: 30:pm， 但 也 能 匹配 无 意义 的 时 刻 ， 如 
99: 99.pm。 

首先 看 小 时 数 ， 我 们 知道 ， 如 果 小 时 数 是 一 个 两 位 数 ， 第 一 位 只 能 
是 1。 但 是 '1? [0-9] 仍然 能 够 匹配 19 〈 也 能 够 匹配 0) ， 所 以 更 好 的 办 
法 应 该 是 把 小 时 部 分 分 为 两 种 情况 来 处 理 ， | 1[012] 匹配 两 位 数 ， 上 [1- 
9] 逻 配 一 位 数 ， 结 果 束 古 '(1[012]l[1-9]〉,。 

分 钟 数 束 简单 些 。 第 一 位 数字 应 该 是 '![0-5] ， 此 时 第 二 位 数字 应 议 
是 '[0-9] 。 综 合 起 来 就 是 〈1[012]I[1-9]) : [0-5][0-9]- Cam|pm) — 

举一反三 ， 你 能 够 处 理 24 小 时 制 的 时 间 吗 ?多 动 动脑 筋 ， 想 想 该 如 
何 处 理 以 0 开头 的 情况 ， 比 如 09: 59 呢 ?答案 请 见 下 页 。 
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Regular Expression Nomenclature 

正则 (regex) 

你 或 许 已 经 猜 到 了 , “正则 表达 式 ”(regular expression) 这 个 全 名 
念 起 来 有 护肤 烦 ， 写 出 来 就 更 膝 烦 。 所 以 ， 我 一 般 会 采用 “下 
则 ”(regex) 的 说 法 。 这 个 单词 念 起 来 很 流畅 〈 有 点 像 联邦 快递 的 
FedEX， 与 regular 一 样 ，g& 有 重音， 而 不 同 于 Regina) ， 而 且说 “如 果 你 
写 一 个 正则 ”% “巧妙 的 正则 ”(budding regexers) ， 甚 全 是 “正则 
化 ”(regexification) 〈 注 10) (译注 4) 。 
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JU fid (matching) 

一 个 正则 表达 式 “ 匹 配 ” 一 个 字符 串 ， 其 实 是 指 这 个 正则 表达 式 能 在 
字符 串 中 找到 匹配 文本 。 严 格 地 说 ， 正 则 表达 式 'a 不 能 匹配 cat, (Ae 
能 匹配 cat 中 的 a。 几 平 没 人 会 泥 消 这 两 个 概念 ， 但 淤 清 一 下 还 是 有 必要 

元 字符 (metacharacter) 

一 个 字符 是 售 元 字符 〈 或 者 是 “元 字符 序列 ”(Cmetasequence ) ， 这 
两 个 概念 是 相等 的 ) ， 取 决 于 应 用 的 具体 情况 。 例 如 ， 只 有 在 字符 组 外 
部 并 且 是 在 未 转 义 的 情况 下 ， 大 , 才 是 一 个 元 字符 。" 转 义 ”(escaped ) 
的 意思 是 ， 通 第 情况 下 在 这 个 字符 之 前 有 一 个 反 斜 线 。\ 类 是 对 大 的 
FEL, TM WANE CORP IRR ORS PS RAR), BRA 
在 两 个 例子 中 ， 星 号 之 前 都 有 一 个 反 斜 线 。 

正则 表达 式 的 流派 (flavor) 不 同 ， 关 于 字符 转 义 的 规定 也 不 相 
同 。 第 3 章 对 此 进行 了 详细 讨论 。 

IK (flavor) 

我 已 经 说 过 ， 不 同 的 工具 使 用 不 同 的 正则 表达 式 完 成 不 同 的 任务 ， 
每 样 工 具 支 持 的 元 字符 和 其 他 特性 各 有 不 同 。 我 们 再 举 早 词 分 界 和 从 的 例 
Jo ERER egrep 支持 我 们 曾 见 过 的 \ 过 ..,\ 过 表示 法 。 而 男 一 些 版 
本 不 文 持 单独 的 起 始 和 结束 边界 ， 只 提供 了 统一 的 \b 元 字符 《这 个 元 
字符 我 们 还 没 见 过 ， 下 一 章 才 会 用 到 ) 。 还 有 些 工具 同时 支持 这 两 种 表 
示 法 ， 另 有 许多 工具 哪 种 也 不 文 持 。 

我 用 “流派 (flavor) ”这 个 词 来 摘 述 所 有 这 些 细微 的 实现 规定 。 这 
RETA AA RIA BFE. MELA, “IR THA AES Fc 
字符 的 规定 ， 但 它 的 内 容 远 远 不 止 这 些 。 

即使 两 个 程序 都 文 持 \ 委 ..\> ， 它 们 可 能 对 这 两 个 元 字符 的 意义 
有 不 同 的 理解 ， 对 单词 的 理解 也 不 相同 。 在 使 用 具体 的 工具 软件 时 ， 这 


个 问题 尤其 重要 。 


改进 匹配 时 间 的 表达 式 ， 处 理 24 小 时 制 时 间 
© 26 页 问题 的 答案 
办 法 有 许多 种 ,不 过 思路 和 之 前 差不多 。 现在 我 们 把 问题 分 为 3 部 分 : 其 一 是 上 午 (小 
时 数 从 00 到 09, 开头 的 0 可 选 )， 其 二 是 白天 (小 时 数 从 10 到 19), 其 三 是 夜晚 (小 
时 数 从 20 到 23)。 这 样 答案 就 很 明显 了 : 0?[0-9] 11[0-9] |2[0-3],, 
RELE, 我 们 可 以 合并 头 两 个 多 选 分 支 ， 得 到 [01]210-9]1210-3] J。 你 可 能 需要 动 
点 脑筋 才能 明白 这 个 表达 式 与 上 面 是 完全 等 价 的 ， 下 面 的 图 可 能 有 所 帮助 ， 它 还 提供 


了 另 一 种 思路 。 阴 影 部 分 表示 单个 多 选 分 支 能 够 匹配 的 数字 。 
左 图 右 图 
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请 不 要 混 消 “流派 (flavor) ”和 “工具 Ctool) ”这 两 个 概念 。 两 个 人 
可 以 说 同样 的 方言 ， 两 个 完全 不 同 的 程序 也 可 能 属于 同样 的 流派 。 同 
样 ， 两 个 名 字 相 同 的 程序 (解决 的 任务 也 相同 ) 所 属 的 流派 可 能 有 细 和 做 
(有 了 时 可 能 并 非 细 人 短 〉 的 天 别 。 有 许多 程序 都 叫 egrep， 它 们 所 属 的 流 
IRB Ae NT I. 

由 Perl 语 言 的 正则 表达 式 开 创 的 流派 ， 在 20 世 纪 90 年 代 中 期 因为 其 
强大 的 表达 能 力 三 为 人 们 所 知 ， 其 他 语言 紧 随 其 后 ， 提 供 了 汲取 其 中 灵 
感 的 正则 表达 式 〈 其 中 许多 为 了 标明 目 己 的 思想 来 源 ， 直 接 给 目 己 贴 
E3 Perl (Perl-Compatible) ”的 标 侈 )。 它 们 包括 PHP、Python.、 
Java 的 大 量 正则 包 ， 微 软 的 .NET Framework、Tdd， 以 及 C 的 各 种 类 库 。 
不 过 ， 所 有 这 些 语言 在 重要 的 方面 各 有 不 同 。 而 且 Perl 的 正则 表达 式 也 
TEDW BLA AE ME, AIR EAS RE SY TE WU eA 
BO o REET PE, LAY Ja TS BOR A SR, TE ATER. 


子 表 达 式 (subexpression ) 

“ 子 表 达 式 ” 指 的 是 整个 正则 表达 式 中 的 一 部 分 ， 通 第 是 括号 内 的 表 
达 式 ， 或 者 是 由 中 | 分 阳 的 多 选 分 文 。 例 如 ， 在 ' 作 (SubjectlDate): - 
H, ‘Subject|Date 通常 被 视 为 一 个 子 表 达 式 。 其 中 的 'Subject 和 'Date 
也 算得 上 子 表达 式 。 而 且 ， 严 格 谨 起 来 ，'S 、m 、b 、 了 了 这些 字 符 ， 
都 算 子 表达 式 。 

1-6 ”这样 的 字符 序列 并 不 能 算 也 [1-6]: * 的 子 表达 式 ， 因 为 ‘1-6 所 
属 的 字符 组 是 不 可 分 割 的 “单元 (unit) >”。 但 是 ，' 瑞 、'[1-6] 、 Ox 都 
征 了 [1-6]: 关 ,的 于 表达 式 。 

与 多 选 分 文 不 同 的 是 ， 量 词 〈 星 号 、 加 号 和 问号 ) 作用 的 对 象 是 它 
们 之 前 案 邻 的 子 表 达 式 。 所 以 'mis+tpell 中 的 + 作用 的 是 's ， 而 不 是 
mis 或 者 'is 。 当 然 ， 如 果 量 词 之 前 案 邻 的 古 一 个 括 写 包围 的 子 表达 
式 ， 整 个 子 表达 式 (we RR) 都 被 视 为 一 个 单元 。 

字符 (character) 

“字符 ?在 计算 机 领域 是 一 个 有 特殊 是 义 的 单词 。 一 个 字 币 所 代表 的 
里 词 取 雇 于 计算 机 如 何 解释 。 单 个 字 节 的 值 不 会 变化 ， 但 这 个 人 所 代表 
的 字符 却 是 由 解释 所 用 的 编码 来 决定 的 。 例 如 ， 值 为 64 和 53 的 字 节 ， 在 
ASCI 纺 码 中 分 别 代表 了 字符 <“@” 和 "5”， 但 在 EBCDIC 编 但 中 ， 则 是 完 
全 不 同 的 字符 《一 个 是 空格 ， 一 个 是 控制 字符 ) 。 

夯 一 方面 ， 在 流行 的 日 文字 符 编 查 中 ， 这 两 个 字 和 代表 一 个 字符 
正 。 如 果 换 一 种 日 文字 和 从 编码 ， 这 个 字 束 需要 两 个 完全 不 同 的 字 节 。 那 


两 个 字 节 ， 在 通行 的 Latin-1 编 码 中 ， 表 示 “ 人 "， 而 在 Unicode ”编码 中 


Al 
MTN OCH FT? E11) 。 问 题 在 于 ， 字 节 如 何 解释 只 是 视角 《 称 
为 “编码 ”encoding) 的 问题 ， 我 们 要 做 的 只 是 确保 目 己 的 视角 和 正在 使 
用 的 工具 的 视角 相同 。 

一 下 以 来 ， 文 本 处 理 软件 一 般 都 把 数据 视 为 一 些 ASCII Sat 
节 ， 而 不 考虑 使 用 者 期 望 采用 的 字符 编码 。 不 过 ， 近 来 已 经 有 越 来 越 多 
的 系统 在 内 部 使 用 某 些 格式 的 Unicode 编 码 来 处 理 数据 (第 3 章 介 绍 了 
Unicode, 105) 。 如 果 这 些 系统 中 的 正则 表达 式 子 系统 的 实现 方式 正 
人 硝 ， 使 用 者 通常 束 不 需要 在 编码 的 问题 上 窒 太 多 工夫 。 这 个 “如 果 ” 相 当 
复 林 ， 所 以 第 3 对 深入 讲解 了 这 个 问题 。 


改进 现状 


Improving on the Status Quo 

尽 的 来 说 ， 正 则 表达 式 并 不 难 。 但 是 ， 如 果 你 与 使 用 过 支持 正则 表 
达 式 的 程序 或 语言 的 人 交流 过 束 会 肥 现 ， 茶 些 人 确实 “会 用 ”正则 表达 
A Me RAR TIAA A, Me h 
问题 。 

传统 的 正则 表达 陈 文 档 大 都 只 包含 一 两 个 元 字符 的 简略 介绍 ， 然 后 
瓯 给 出 关于 其 他 元 字符 的 表格 。 给 出 的 例 和 子 通 利 也 是 无 意义 的 "ax 
( Cab) 类 |b 关 ) ， 文 本 则 是 'a.XXX'ce'XXXXXX' cixxx'd’. KELK 
都 忽略 了 细微 但 重要 的 知识 点 ， 总 是 声称 目 己 与 其 他 出 名 的 工 基 属于 同 
MI TS ite RDARENAF. EMR SEAM. 

HA, RNR, ASAE IR Ap ROA, tbe Sie 
有 有 正则 表达 式 ， 或 是 掌握 egrep 的 正则 表达 式 。 相 反 ， 这 一 章 只 是 为 本 
书 的 其 他 内 容 铺 垫 基 础 。 我 希望 本 书 能 够 为 读者 填补 这 道 鸿 沟 ， 时 然 这 
期 组 有 后 日 久 。 很 多 读者 很 满意 本 书 的 第 一 版 ， 我 本 人 也 为 拓展 这 一 版 
的 深度 和 广度 付出 了 艰 吾 的 努力 。 

或 许 古 因为 正则 表达 式 的 文档 一 直 都 非 闸 欠缺 ， 我 感到 目 己 必须 做 
出 额外 的 努力 ， 才 能 把 知识 机理 消 楚 。 因 为 我 布 望 你 证 读者 能 够 元 分 运 
用 正则 表达 式 的 潜力 ， 我 布 望 你 们 能 够 真正 精明 正则 表达 式 。 

这 既是 件 好 事 也 十 件 坏事 。 

好 处 在 于 ， 你 将 学 会 如 何以 正则 表达 式 的 方式 来 思考 问题 。 你 将 学 
习 到 ， 在 面 对 属 于 不 同 流派 的 新 工具 时 ， 需 要 注意 哪些 和 寞 和 特性 。 你 
还 将 会 学 习 到 ， 如 果 东 个 流派 的 功能 弱小 、 特 性 简陋， 该 如 何 表 达 目 己 
的 意图 。 你 将 会 明日 ， 一 个 正则 表达 式 的 效 座 优 于 其 他 表达 式 的 原因 所 
在 ， 而 且 你 将 能 够 在 复 汪 性、 效率 和 匹配 准确 性 间 进 行 取 伟 权衡 。 

面 对 特 别 复 杂 的 任务 ， 你 将 会 知道 如 何 通 过 程序 容许 的 方式 来 构建 
ee 忌 的 来 说 ， 你 能 够 得 心 应 手 地 使 用 正则 表达 式 的 所 

潜能 。 

问题 在 于 ， 这 种 方法 的 学 习 曲 线 非 第 陡 峭 ， 而 且 还 有 几 大 难 点 : 

e 正 则 表达 去 的 使 用 ”许多 程序 使 用 的 正则 表达 陈 比 egrep 要 复杂 。 
在 我 们 探讨 如 何 构造 黄 正 有 用 的 正则 表达 式 的 细节 之 前 ， 需 要 知道 正则 
表达 式 的 使 用 方法 。 下 一 章 天 注 这 一 问题 。 

e 正则 表达 式 的 特性 Cfeature) 面 对 问 题 ， 选 择 合 适 的 工具 是 成 功 
的 一 半 ， 上 所 以 我 会 在 全 书 中 使 用 多 种 工具 。 不 同 的 程序 ， 甚 至 是 同一 个 
程序 的 不 同 厂 本 ， 文 持 的 特性 和 元 字符 都 不 一 样 。 在 了 解 使 用 细 贡 之 
前 ， 我 们 必须 搞 清 楚 这 个 问题 。 这 是 第 3 章 有 的 主题 。 

e 下 则 表达 式 的 工作 原理 在 我 们 接触 有 用 但 通常 也 很 复 森 〉 的 例 


子 之 前 ， 我 们 必须 “ 揭 开 着 子 ? 来 了 解 正 则 表达 陈 的 工作 原理 。 我 们 将 会 
看 到 ， 对 某 些 元 字符 进行 答 试 匹配 的 次 序 是 一 个 重要 的 问题 。 实 际 上 ， 
ENKI (regular expression engine) 不 同 ， 工 作 原 理 也 不 同 ， 
所 以 对 于 同样 的 正则 表达 式 ， 不 同 的 程序 会 得 到 不 同 的 结果 。 我 们 将 在 
第 4、5、6 半 中 探讨 这 个 复 林 的 问题 。 

正则 表达 式 的 工作 原理 是 最 重要 同时 也 是 最 难以 掌握 的 知识 。 研 究 
这 个 问题 有 时 的 确 很 枯燥 ， 更 粳 类 的 是 ， 读 者 在 接触 真正 有 趣 的 内 容 
-解决 实际 问题 一 之前， 不 得 不 而 寿 性 子 看 完 它 们 。 然 和 而， 弄 恒 正 
则 表达 式 的 工作 原理 ， 才 是 真正 理解 的 关键。 

你 或 许 会 息 ， 如 果 只 硕 望 学 会 开车 ， 是 不 需要 了 解 汽 车 运行 原理 
的 。 但 是 ， 学 习 开 车 与 学 习 正 则 表达 却 之 转 并 没有 多 少 相 似 性 。 我 的 有 目 
的 是 教会 读者 如 何 使 用 正则 表达 式 一 一 也 束 是 编写 正则 表达 式 一 一 来 解 
决 问 题 。 更 合适 的 比喻 是 ， 和 学 习 正 则 表达 式 束 如 同学 习 如 何 造 车 ， 而 不 
是 如 何 开车 。 在 制造 汽车 以 前 ， 我 们 必须 了 解 汽车 的 工作 原理 。 

第 2 间 提 供 了 更 多 的 天 于 开车 的 经 验 。 第 3 章 人 简要 回顾 了 开车 的 历 
史 ， 详 细 考 察 了 正则 表达 式 流 派 的 主要 内 容 。 第 4 间 介 绍 了 正则 表达 式 
流派 的 重要 的 引擎。 第 5 章 展 示 了 一 些 更 复杂 的 例子 ， 第 6 BAO 
何 调 校 菏 种 具体 的 引擎 ， 之 后 的 各 章 则 是 检查 有 基体 的 产品 和 模型 。 在 第 
aaa RIJE SO Fa WER AT Fe a JERE, Pr Dg So tit 
了 准备 。 


Summary 
表 1-3 总 结 了 我 们 在 本 章 中 见 过 的 egrep 的 元 字符 。 


表 1-3: egrep 的 元 字符 总 结 


匹配 单个 字符 的 元 字符 


元 字符 匹配 对 象 
| &F 匹配 单个 任意 字符 
[…] 字符 组 匹配 单个 列 出 的 字符 
[ 排除 型 字符 组 匹配 单个 未 列 出 的 字符 
sie 若 char RAFE, AAA EAD, ER 
char 对 应 的 普通 字符 
提供 计数 功能 的 元 字符 


BAER, (abil 
i 可 以 匹配 任意 多 次 ， 也 可 能 不 匹 本 





+ 加 号 至 少 需 要 匹配 一 次 ， 至 多 可 能 任意 多 炎 
‘min, max} 至 少 需要 min 次 ， 至 多 容许 max 次 
匹配 位 置 的 元 字符 
脱 字符 匹配 一 行 的 开头 位 置 
$ 匹配 一 行 的 结束 位 置 
\< Hig RAO 匹配 单词 的 开始 位 置 
\> 匹配 单词 的 结 来 位 置 
其 他 元 字符 
| alternation 匹配 任意 分 陪 的 表达 式 
ben 括号 限定 多 选 结构 的 范围 ， 标 注 量词 作用 的 元 素 ， 为 有 


向 引用 捕获 文本 


np yer 匹配 之 前 的 第 一 、 第 二 组 括号 内 的 字 表 达 式 匹配 的 
ent tk 


Oar PTA WR AAD egrep 部 支持 


此 外 ， 请 务必 理解 以 下 几 点 : 

e 各 个 egrep 程序 是 有 差别 的 。 它 们 支持 的 元 字符 ， 以 及 这 些 元 字 
从 的 确切 含义 ， 通 党 都 有 甘 别 一 一 请 参考 相应 的 文档 C23) 。 

e 使 用 括号 的 3 个 理由 是 : 限制 多 选 结构 (13) 、 分 组 ( 守 14) 和 
捕获 文本 C21) 。 





e 字 从 组 的 特殊 性 在 于 ， 关 于 元 字符 的 规定 是 完全 独立 于 正则 表达 
式 语 言 “主体 ”的 。 

e 多 选 结构 和 字符 组 是 截然 不 同 的 ， 它 们 的 功能 完全 不 同 ， 只 古 在 
大限 的 情况 下 ， 它 们 的 表现 相同 C713) 。 

e 排 际 型 字符 组 同样 是 一 种 “肯定 汤 言 ”(positive assertion) Bp 
使 它 的 名 字 里 包 含 了 了 “排除 ?两 个 字 ， 它 仍然 需要 匹配 一 个 字符 。 只 是 因 
出 itil Fp DA te 2% VOC AN FE AN ES) ESF 

(312) 。 

eiNEQRAA, EREVETT AIBA) S AILE (515) 。 

e 转 义 有 3 种 情况 : 

1.\ 加 上 元 字符 ， 表 示 匹 配 元 字符 所 使 用 的 普通 字符 〈 例 如 八大 匹 
配 普 通 的 星 写 ) 。 

2.'\ 加 上 非 元 字符 ， 组 成 一 种 由 具体 实现 方式 规定 其 意义 的 元 字符 
序列 《例如 ， \ 表示 “单词 的 起 始 边 界 ”) 。 

3.\ 加 上 任意 其 他 字符 ， 和 默认 情 况 吏 是 匹配 此 字符 〈 也 残 是 说 ， 反 
RERA Y) 。 请 记 住 ， 对 大 多 数 版 本 的 egrep 来 说 ， 字 人 符 组 内 部 的 
反 冬 线 没 有 任何 特殊 音义， 所 以 此 时 它 并 不 是 一 个 转 义 字符 。 

e 由 星 号 和 问号 限定 的 对 象 在 “匹配 成 功 ” 时 可 能 并 没有 匹配 任何 字 
从 。 即 使 什么 字符 都 不 能 匹配 到 ， 它 们 仍然 会 报告 “匹配 成 功 ”。 





TRIG 

Personal Glimpses 

本 章 开 始 的 单词 重复 的 例子 可 能 有 些 让 人 迷惑 ， 不 过 正则 表达 去 的 
功能 的 确 很 强大 ， 我 们 只 需要 egrep 这 样 简单 的 工具 ， 用 第 1 章 的 知识 ， 
残 能 够 基本 解决 这 个 问题 。 我 倒是 希望 在 本 章 多 讲 些 复杂 点 的 例 于 ， 但 
古 因 为 我 希望 用 第 1 章 为 后 面 的 章节 打下 坚实 的 基础 ， 我 担心 ， 如 果 这 
一 草 满 是 提醒 、 注 意 、 规 则 之 类 ， 那 些 从 未 接触 过 正则 表达 式 的 人 在 旋 
完 之 后 ， 或 许 会 感到 困惑 一 一 “需要 这 么 胀 烦 吗 ?” 

我 哥哥 曾 教 朋 友 玩 一 种 叫 schaffkopf 的 纸牌 游戏 ， 这 个 游戏 在 我 们 
家 流传 了 好 几 代 了 。 其 中 真正 的 乐趣 并 不 会 在 第 一 次 接触 时 体会 到 ， 而 
日 学 习 的 曲线 也 很 了 汗 崩 。 我 的 嫂子 丽 效 平时 是 最 有 耐心 的 人 ， 但 玩 了 半 
个 小 时 就 对 这 些 复杂 的 规则 感到 灰心 丧气 了 ， 她 说 “我 们 不 能 不 能 玩 兰 
米 〈 详 注 5) W? ?不 过 最 后 的 结果 是 ， 包 括 丽 效 在 内 的 所 有 人 都 玩 到 很 
晚 。 只 要 上 度 过 了 开始 的 难关 ， 接 下 来 的 刺 油 束 会 引诱 他 们 继续 同 前 。 我 
哥哥 知道 肯定 会 这 样 ， 但 丽 效 和 其 他 玩 伴 需要 人 花 忱 时 间 和 工夫 来 继续 深 
入 才能 体会 到 这 个 游戏 的 乐趣 。 

习惯 正则 表达 却 可 能 需要 人 花 一 些 时 间 ， 上 所 以 在 你 没有 真切 体会 到 用 
TE WU eA SURE RE A LA DORSET, AY ES OE A IE. WR, 
RA 2B UR BE We RUE “St RR” RS. AR EB SEV eA 
强大 功能 ， 就 会 感到 花 在 学 习 上 的 那些 时 间 真 古物 超 所 值 。 





第 2 章 入 门 示例 拓展 


Extended Introductory Examples 
还 记得 第 1 章 中 单词 重复 的 例子 吗 ? 我 说 过 ， 完 整 解 决 这 个 问题 只 
需要 用 Perl 之 类 的 语言 号 几 行 代码 。 它 看 起 来 像 是 这 样 : 
$/ = n\n”; 
while (<>) { 
next if !s/\b([a-z]+) ((?:\s|<[^>]+>)+) (\1\b) /\e[7mS$1\e [m$2\e [7m$3\e [m/ig; 
s/*(2:[4\e]*\n)+//mg; # 去 除 未 标记 的 行 
s/*/SARGV: /mg; # 在 行 首 添 加 文件 名 
printy 
} 
HS, AE ETEY S o 
BIERA Perl A Ar T ff REDRAR RR SEE A EE CB 
少 目前 如 此 ) 。 我 希望 的 是 ， 这 个 例子 让 你 看 到 egrep 之 外 的 世界 ， 让 
你 有 兴趣 认识 正则 表达 式 的 真正 能 力 。 
该 程序 的 主要 功能 依 徘 3 个 正则 表达 式 : 
© '\b(fa-z]+) ((2:\s1<[^>]+>) +) (\1\p)1 


A] nj 


a [A 


d 

尽管 这 是 一 个 Perl 的 例子 ， 但 这 3 个 正则 表达 式 可 以 原封 不 动 地 (或 
者 只 需要 做 很 少 的 改动 ) 应 用 到 许多 其 他 语言 中 ， 比 如 PHP、Python、 
Java、VB.NET、Tcl 等 等 。 

现在 米 看 这 3 个 表达 式 ， 最 后 的 个 很 好 理解 ， 但 是 其 他 的 两 个 表达 
式 包 含 我 们 在 egrep 中 未 见 过 的 玩意 儿 。 这 是 因为 Perl 与 egrep 个 属于 同一 
个 流派 ， 所 以 菜 些 表 示 法 有 所 不 同 ， 而 且 Perl 〈 还 包括 许多 其 他 现代 的 
cd 提供 的 元 字符 远 远 多 于 egrep。 我 们 会 在 这 一 章 中 见 到 许多 
列子 。 


关于 这 些 例子 


About the Examples 

本 章 包 括 了 一 些 和 常见 的 问题 一 一 验证 用 户 的 输入 数据 ， 人 处 理 E-mail 
header〈 电 子 邮 件 头 ) ， 把 纯 文本 数据 转换 为 超 文 本 格式 (HTML) ， 
通过 这 些 问题 ， 你 将 真正 见识 到 正则 表达 式 的 世界 。 在 构造 正则 表达 式 
时 ， 我 会 做 些 尽 可 能 详细 的 讲解 ， 提 供 一 些 启 示 。 在 这 个 过 程 中 ， 我 们 
会 见 到 一 些 egrep 没有 提供 的 结构 和 特性 ， 也 会 专门 花 很 多 篇 幅 来 探讨 
其 他 重要 的 概念 。 

在 本 章 的 末尾 及 下 面 的 各 革 中 ， 我 会 使 用 各 种 语言 ， 包 括 PHP, 
Java 和 VB.NET， 但 是 本 和 章 中 我 们 主要 使 用 的 还 是 Perl。 这 些 语言 ， 当 
然 也 包括 其 他 许多 语言 ， 对 正则 表达 式 的 操纵 能 力 都 远 远 强 于 egrep， 
所 以 使 用 其 中 任何 一 种 作为 示范 都 会 让 我 们 见 到 许多 有 趣 的 内 容 。 我 选 
择 以 Perl 开 始 ， 主 要 是 因为 ， 在 所 有 流行 的 语言 中 Perl 对 正则 表达 式 的 
支持 很 完整 ， 且 易于 使 用 。 而 且 ，Per 还 提供 了 许多 其 他 紧凑 的 数据 处 
理 结 构 (data-handling constructs) ， 能 够 减少 所 需 的 “ 价 单 重复 萎 
动 ”(dirty work) ， 以 便 我 们 把 精力 集中 到 正则 表达 式 上 。 

第 2 页 出 现 的 文件 检查 的 程序 很 好 地 说 明了 这 种 能 力 ， 我 需要 用 这 
个 程序 来 确定 每 个 文件 中 ‘ResetSize’ 出 现 的 次 数 与 ‘SetSize’ 出 现 的 次 数 
是 否 一 样 多 。 我 选择 的 语言 是 Perl， 命 令 如 下 : 

%perl-One'print “$ARGV\n” if s/ResetSize//ig! =s/SetSize//ig'* (我 
并 不 奢望 你 现在 就 能 明日 这 条 命令 一 一 我 只 布 望 你 能 注意 a 到 这 条 命令 有 
多 简洁 。) 

我 喜欢 Perl， 但 现在 讨论 的 主题 不 是 Perl。 请 记 住 ， 本 和 章 的 重点 古 
正则 表达 式 。 这 有 点 儿 像 计算 机 系 的 教授 在 第 一 学 年 的 课堂 上 说 的 “你 
们 将 会 在 这 里 学 习 计算 机 科学 知识 ， 但 我 们 选择 用 Pascal 语 言 作 为 学 习 
WLA” QED 。 

因为 本 章 并 不 假设 读者 已 经 懂得 Perl， 所 以 我 会 做 些 必 要 的 讲解 ， 
让 你 明日 这 些 例子 (第 7 章 讲 解 Perl 的 本 质 的 细 广 ， 它 假设 证 者 懂得 一 些 
基本 的 知识 ) 。 即 使 你 兽 经 用 过 好 几 门 语言 ，Perl 也 可 能 让 你 党 得 奇 
怪 ， 因 为 它 的 语法 极 精 炼 ， 语 意 又 极 丰 再 。 为 了 让 这 些 例子 更 清楚 ， 我 
不 会 使 用 Perl 提供 的 这 些 特性 ， 而 是 用 一 种 更 普通 的 近乎 伪 码 的 风格 来 
展示 这 些 程序 。 虽 然 算 不 上 “ 称 脚 ”， 但 这 些 例子 也 不 符合 Perl 的 编程 风 
格 。 不 过 ， 我 们 将 通过 它们 认识 到 正则 表达 式 的 重要 作用 。 








Perlfj HAT J 
A Short Introduction to Perl 
Per 是 一 门 功能 强大 的 脚本 语言 ， 诞 生 于 20 世 纪 80 年 代 末 期 ， 其 思 


想 主 要 来 自 其 他 的 编程 语言 和 工具 。Perl 天 于 文本 处 理 和 正则 表达 式 的 
许多 概念 来 自 两 种 专业 化 的 语言 awk 和 sed， 它 们 都 非常 不 同 于 “传统 > 的 
语言 ， 例 如 C 和 了 Pascal 。 

Perl 可 以 应 用 于 许多 平台 ， 包 括 DOS/Windows, MacOS, OS/2, 
VMS 和 Unix。 乞 的 文本 处 理 能 力 极 其 强大 ， 是 关于 Web 的 处 理 中 最 章 
使 用 的 工具 。 如 果 要 获得 对 应 你 的 机 器 版 本 的 Perl， 请 参考 
www.perl.com. 

本 书 是 为 Perl 的 5.8 版 而 与 的 ， 不 过 本 章 的 例子 可 以 在 5.005 以 后 的 版 
本 上 使 用 。 

现在 来 看 一 个 徐 音 的 例子 : 

Scelsius = 30; 

Sfahrenheit = (S$celsius * 9 / 5) + 32; 

print “Scelsius C is S$fahrenheit F.\n”; 
执行 这 段 程序 ， 结 果 是 : 

30 Cis 86 F. 


$fahrenheit 和 $celsius 之 类 的 普通 变量 一 般 以 $ 开 头 ， 可 以 保存 一 个 
ne 的 文本 (在 本 例 中 只 保存 了 数值 ) 。 从 井 到 行 尾 都 是 
注释 。 

如 果 你 曾经 使 用 过 C、C# 或 者 Java、VB.NET， 你 可 能 无 法 理解 在 


Perl 中 变量 大 然 能 够 出 现在 双 引 号 包围 的 字符 串 中 。 在 字符 串 “$celsius C 


is $fahrenheit FA\n” 中 ， 每 个 变量 都 会 被 它 的 实际 值 所 取代 。 在 本 例 中 ， 
结果 融和 是 打印 出 来 的 字符 串 Cn 代表 换行 )。 
Perl 也 提供 了 跟 其 他 流行 的 语言 类 似 的 控制 结构 : 
Scelsius = 20; 
while (Scelsius <= 45) 


{ 


# 计算 华氏 温度 
# 返回 摄氏 和 华氏 温度 


Sfahrenheit = (Scelsius * 9 / 5) + 32; # 计算 华氏 温度 
print “S$celsius C is $fahrenheit F.\n”; 
Scelsius = Scelsius + 5; 


} 


在 条 件 为 真 ( 即 $celsius <=45) 时 ，while 循 环 控制 的 部 分 会 重复 


换行。 把 这 段 代码 与 入 到 一 个 程序 中 ， 例 如 temps， 我 们 可 以 二 接 从 命 


% perl -w temps 


令 行 运行 它 。 
下 面 是 运行 的 结 
20 C 
20 © 
20 G 
ao i 
40 C 
45 G 


1s 
is 
Ls 
LS 
is 
is 


68 F, 


-W 参 数 并 不 吓 运 行 所 必须 的 ， 与 正则 表达 式 也 没有 和 直接 有 的 联系 。 它 
只 十 告诉 Perl， 仔 细 检 查 我 们 的 程序 ， 在 Perl 认为 可 括 的 地 方 肥 出 警报 
(例如 没有 初始 化 的 变量 之 类 一 一 在 Perl 中 ， 变 量 不 需要 事 完 声明 就 能 
(EH) 。 在 这 里 加 上 这 个 参数 ， 只 是 因为 它 是 一 种 民 好 的 习惯 。 

好 了 ， 这 束 古 Perl 的 人 简单 入 门 。 下 面 我们 来 看 在 Perl 中 如 何 使 用 正 


MALIA To 


使 用 正则 表达 式 史 配 文 本 


Matching Text with Regular Expressions 

Perl 可 以 以 多 种 方式 使 用 正则 表达 式 ， 了 最 简单 的 束 是 检 杏 变量 中 的 
文本 能 售 由 麻 个 正则 表达 式 匹 配 。 下 面 的 代码 检查 $reply 中 所 含 的 字符 
串 ， 报 告 这 个 字符 串 是 人 寿 全 部 由 数字 构成 : 

if ($reply =~ m/*[0-9]+$/) { 
print “only digits yy 
} else { 
print "not. only digits in”; 
} 

第 一 行 的 代码 也 许 有 些 奇怪 ， 正 则 表达 式 是 ,A[0-9]+$ ， 两 边 的 my 
/告诉 Perl 该 对 这 个 正则 表达 式 进 行 什么 操作 。m 代 表 笑 试 进行 “ 正 则 
表达 式 匹 配 (regular expression match) ”， 冬 线 用 来 标记 界限 〈 注 2) 。 
之 前 的 = 一 用 来 连接 m/.../ 和 和 欲 搜索 的 字符 串 ， 即 本 例 中 的 $reply。 

请 不 要 混 清 = 一 、= 和 ==。 运 算 侍 == 用 来 测试 两 个 数字 是 含 相 等 
(我 们 将 会 看 到 ， 运 算 符 eq 用 来 测试 两 个 字符 串 是 否 相等 ) 。 运 算 符 = 
用 来 给 变量 赋值 ， 例 如 $Celsius=20。 最 后 ，= 一 用 来 连接 正则 表达 式 和 
竺 搜索 的 目标 字符 串 。 在 这 个 例子 中 ， 要 搜索 的 正则 表达 式 是 mA[0- 
9]+$/， 而 目标 字符 串 是 $reply。 此 程序 在 其 他 语言 中 的 思路 有 所 不 同 ， 
我 们 会 在 下 一 章 看 到 例子 。 

把 = 一 读 作 * 匹 配 Cmatches) ”可 能 比较 省 事 ， 所 以 

if ($reply=~m/^[0-9]+$/ 

BEE: 

“如 果 变 量 $reply 所 含 的 文本 能 够 逻 配 正则 表达 式 人 ^[0-9]+$ ， 那 

如 果 '^[0-9]+$ Fee VLA SreplyH AZ, $reply=~m/A[0-9]+$/A i 
AVE Atrue, All Afalse. ifi EEH true/false ERA E Mi IT Ala 
A 。 


请 注意 ， 如 果 $reply 中 包含 任意 的 数字 字符 ，$reply= 一 mm/[0-9]+/ 
(《 相 比 之 前 的 表达 式 ， 去 择 了 开头 的 胶 字 符 和 绪 尾 的 美元 符 ) 的 返回 值 
WL true. PRA) 'A...$ 傈 证 整个 $reply 只 包含 数字 。 

现在 把 上 和 面 两 个 例子 结合 起 来 。 首 先 提示 用 户 输入 一 个 值 ， 接 收 这 
个 输入 ， 用 一 个 正则 表达 式 来 验证 ， 确 保 输入 的 是 一 个 数值 。 如 果 是 ， 


我 们 融 计 算 相 应 的 华氏 温度 ， 否 则 ， 我 们 输出 一 条 报警 信息 : 


print “Enter a temperature in Celsius:\n”; 
Scelsius = <STDIN>; # 从 用 户 处 接 党 一 个 输入 
chomp ($celsius) ; # 去 掉 Scelsius 后 面 的 换行 符 


if ( $celsius =~ m/^[0-9]+$/) { 
Sfahrenheit = (Scelsius * 9 / 5) + 32; # 计 算 华氏 温度 
print “Scelsius C is $fahrenheit Fyn”; 
} else { 
print “Expecting a number, so I don't understand \”"”Scelsius\”.\n”; 


} 


请 注意 最 后 的 print 语 句 有 两 个 转 义 的 双 引 号， 它们 的 作用 并 不 是 标 
记 引 用 字符 串 的 边界 。 对 大 多 数 语言 的 文字 字符 串 〈literal string) 来 
说 ， 有 时 候 需 要 转 义 某 些 字符 ， 做 法 跟 正 则 表达 式 中 元 字符 的 转 义 很 相 
似 。 在 Perl 中 ， 字 人 符 串 与 正则 表达 去 的 区 别 并 非 很 重要 ， 但 是 在 Java、 
Python 等 语言 中 却 极为 重要 。 “一 点 题 外 话 一 一 数量 丰 宙 的 元 字符 ”这 一 
E (344) 更 详细 地 讨论 了 这 个 问题 (VB.NET 是 个 明显 的 例外 ， 在 那 
ERNAI SH” MDE) 。 
如 来 我 们 把 这 上 段 程序 保存 为 c2f， 则 运行 结果 如 下 : 
S$ perl -w c2f 
Enter a temperature in Celsius: 
Lz 
22 C is 71.599999999999994316 F 
哎呀 ， 看 来 〈 至 少 在 某 些 系统 上 ) ，Perl 的 简单 的 print 并 不 能 很 好 
地 处 理 浮 点 数 。 
我 不 想 在 本 章 中 讨论 Perl 的 细 世 ， 但 是 我 告诉 你 用 printf (“格式 化 
输出 (print formatted) ”) 可 以 解决 这 个 问题 : 
printf "%.2f C is%.2f F\n",$celsius, $fahrenheit; 
这 里 的 printf 类 似 C 语 言 中 的 printf， 或 者 Pascal、Tcl、elisp 和 和 Python 
中 的 format。 它 不 会 更 改变 量 的 值 ， 而 只 是 改变 显示 的 方式 。 现 在 的 结 
RUS J: 


Enter a temperature in Celsius: 
22 
222.00 C IS 71260 E 


问 更 实用 的 程序 前 进 


Toward a More Real-World Example 

让 我 们 扩展 这 个 例子 ， 容 许 输 入 负数 和 可 能 出 现 的 小 数 部 分 。 这 个 
问题 的 计算 部 分 没 问 题 一 一 Perl 通 向 情况 下 不 区 分 整数 和 部 点 数 。 不 过 
我 们 需要 修改 正则 表达 式 ， 容 许 输入 负数 和 浮 点 数 。 我 们 添加 一 个 -? 
来 容许 最 前 面 的 负数 从 写 。 实 际 上 ， 我 们 可 以 用 '[-+]? 来 处 理 开 头 的 
IES. 

SVP AY BEHRA, ETS! CO.[0-9]* ) ? 。 转 义 的 
点 写 逻 配 小 数 点 ， 所 以 人 [0-9] 关 用 来 匹配 小 数 点 和 后 面 可 能 出 现 的 数 
字 。 因 为 \[0-9]x 被 '(...) ? 所 包围 ， 整 个 子 表达 式 都 不 是 匹配 成 果 


所 必须 的 〈 请 注意 ， 它 与 、 当 [0-91 ”1 是 截然 不 同 的 ， 对 后 一 个 表达 式 
H, BEN. 无 法 匹配 ，'[0-9]x 也 能 够 匹配 接 下 来 的 数字 ) 。 
把 这 些 综合 起 来 ， 就 得 到 这 样 的 条 件 判 断 语句 ， 
if (Scelsius =~ mye Ps) Oso]. 108] eee 7) { 


它 能 够 由 配 32、-3.723、+98.6 这 样 的 文字 。 不 过 还 不 够 完善 : 它 不 
能 匹配 以 小 数 点 开头 的 数 〈 例 如 .357) 。 当 然 ， 用 户 可 以 添加 一 个 整数 
位 0 来 匹配 〈 例 如 0.357) ， 所 以 我 认为 这 并 不 是 一 个 严重 的 问题 。 这 
个 浮 点 数 问 题 处 理 起 来 得 靠 些 诀 罕 ， 我 们 会 在 第 5 OTE CS 
194) 。 





成 功 匹 配 的 副作用 


Side Effects of a Successful Match 

RIJE, LEK PIA TUBE DOA ASE RE. BATE 
户 在 温度 的 末尾 加 上 C 或 者 来 表示 。 我 们 可 以 在 正则 表达 式 的 末尾 加 
上 ITCF] 来 匹配 用 户 的 输入 ， 但 还 需要 修改 程序 的 其 他 部 分 ， 以 便 识 别 
用 户 输入 的 温度 类 型 ， 并 进行 相应 的 转换 。 

在 第 1 革 ， 我 们 看 到 过 菜 些 版 本 的 egrep 文 持 作 为 元 字符 的 \1 、 
\2 、MWM3 ， 用 来 保存 前 面 的 括号 内 的 子 表达 式 实 际 匹 配 的 文本 (加 
21) 。Perl 和 其 他 许多 文 持 正则 表达 式 的 语言 都 文 持 这 些 功 能 ， 而 且 匹 
配 成 功 之 后 ， 在 正则 表达 式 之 外 的 代码 仍然 能 够 引用 这 些 罗 配 的 文本 。 

我 们 会 在 下 一 章 看 到 各 种 语言 是 如 何 做 a 到 这 一 点 的 (只 137) ， 但 
是 Perl 的 办 法 是 通过 变量 $1、$2、$3 等 等 ， 它 们 指 同 第 一 组 、 第 二 组 、 
第 三 组 括号 内 的 子 表达 式 实 际 匹 配 的 文本 。 这 未 免 有 点 奇怪 ， 它 们 都 是 
变量 ， 而 杰 量 名 则 是 数字 。 正 则 表达 云 史 配 成 功 一 次 ，Perl 丈 会 设置 一 


次 。 
总 络 一 下 ， 在 等 试 匹 配 时 ， 正 则 未 达 陈 中 的 元 字符 VL, 指 癌 之 前 匹 
二 


为 了 你 持 例 子 的 简洁 ， 集 中 表现 新 的 地 方 ， 我 移 不 考 碟 小 数 部 分 ， 
之 后 再 来 看 它 。 所 以 ， 我 们 来 看 $1， 请 比较 : 
somelelys == m“ [+F [0-2] LEFT 
ecelsius =~ m ^([-+] 7 [0-9] 4) LCT) S 
WIRE SAE S ERARE? 为 了 回答 这 个 问题 ， 我 们 
需要 知道 ， 这 些 括号 古人 否 改 变 了 星 号 或 者 其 他 量词 的 作用 对 象 ， 或 是 !| 
的 意义 。 和 人 答案 是 ， 都 没有 改变 ， 所 以 这 个 表达 陈 仍 然 能 够 匹配 相同 的 文 
本 。 不 过 ， 他 们 确实 围 住 了 我 们 期 望 匹 配 字 符 串 中 “有 价值 ”文本 的 子 表 
达 式 。 如 图 2-1 所 示 ，$1 体 存 那些 数字 ， 而 $2 体 存 C 或 者 fF。 下 一 页 的 
图 2-2 是 程序 的 流程 图 ， 我 们 友 现 ， 这 个 图 让 我 们 很 容易 地 决定 匹配 之 
后 应 该 干什么 。 








第 二 全 
整个 正则 表达 二 闭 括 号 


Scelsius =~ m/4([-+]?[0-9]+) ([CF])$/ 


保存 于 $1 保存 于 $2 





图 2-2， 温度 转换 程序 的 逻辑 流程 
示例 2-1: 温度 转换 程序 


print “Enter a temperature (e.g,., 32F, 100C):\n”; 
$input = <STDIN>; # 接收 用 户 输入 的 一 行文 本 
chomp ($input); # 去 擅 文 本 末尾 的 换行 和 付 


LE (LD == TE] OSI (LB 

{ 
# 如 果 程 序 运行 到 此 ， 则 已 经 匹配 ，5$1 保存 数字 ，$2 RACAR" E" 
SInputNum = $1， 间 把 数据 保存 到 已 命名 变量 中 . 
Stype = $2; #.. 保 证 程序 清晰 易 懂 


if ($type eq “C”) { # "eq 测试 两 个 字符 串 是 否 相等 
# 输入 为 摄氏 温度 ， 则 计算 华氏 温度 
scelsius = SInputNum; 
Sfahrenheit = (Scelsius * 9 / 5) + 32; 
} else { 
# 如 果 不 是 ”"C”， 则 必然 是 "F”， 计 算 摄氏 温度 
sfahrenheit = $InputNum; 
Scelsius = ($fahrenheit - 32) * 5 / 9; 
| 
# 现 在 得 到 了 两 个 温度 值 ， 显 示 结 果 : 
printi “YY.2t C is %.2f Fin”, Scelsius, $fahrenheit; 
} else { 
# 如 果 最 开始 的 正则 表达 式 无 法 匹配 ， 报 区 
print “Expecting a number followed by \"C\” or \"F\",\n"; 
print “so I don't understand \"Sinput\”.\n’; 


如 果 上 一 页 的 程序 名 叫 convert， 我 们 可 以 这 样 使 用 : 


% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39F 

S09 C IS 39.00 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39C 

$9.00 E a8 102.20 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
oops 

Expecting a number followed by “C” or “EF”, 
so I don’t. understand “oops”. 


fe Sm 32 AB HY IE WU ETA ZA 


Intertwined Regular Expressions 

在 Perl ZAN MAR SA, JEM AIAS UY EA St Ee ee 
混合 在 一 起 的 。 为 了 说 明 这 一 点 ， 我 们 对 这 个 程序 做 三 点 改进 : 像 之 前 
一 样 能 够 接收 浮 点 数 ， 容 许 fate c 是 小 写 ， 容 许 数字 和 字母 之 间 存 在 
空格 。 这 三 点 全 都 完成 之 后 ， 程 序 束 能 够 接收 ‘98.6: 了 的 输入 。 

我 们 已 经 知道 ， 添 加 (\[0-9]x ) ? 就 能 够 处 理 浮 点 数 : 


Lf (Sinput em m“ {LFI OSS] Es LS *) 2) CICOP Sr) 


请 注意 ， 它 添加 在 第 一 个 括号 内 部 ， 因 为 我 们 用 第 一 组 括号 内 的 子 
表达 式 来 捕获 多 上 度 的 值 ， 我 们 当然 希望 它 能 够 包含 小 数 部 分 。 不 过 ， 增 
加 了 这 组 插 亏 之 后 ， 即 使 它 只 是 用 来 分 组 问号 限定 的 对 象 ， 也 会 影 啊 到 
引用 捕获 文本 的 变量 。 因 为 这 组 括号 的 开 括 号 在 整个 表达 式 中 排 在 第 二 
位 《从 左 同 右 数 ) ， 所 以 它 匹 配 的 文本 存 入 $2 〈 见 网 2-3) 。 


保存 于 $1 
保存 于 $2 保存 于 $3 


Ey 


Sinput =~ m/^([-+]?[(0-9]+(\.[0-9]*)?) ({CF])$/ 





第 | 个 开 括 写 第 2 个 开 插 号 第 3 个 开 手写 





| 图 2-3: WERTE 

图 2-3 说 明了 括号 的 髓 套 关系 。 在 '[CF] 之 前 添加 一 组 括号 并 不 会 直 
接 影响 整个 正则 表达 式 的 意义 ， 但 是 会 产生 间接 的 影响 ， 因 为 现在 
[CF] 所 在 的 括号 排 在 第 3 位 。 这 也 意味 着 我 们 需要 把 $type 的 赋值 从 $2 
改 为 $3〈 如 果 不 硕 望 这 么 做 ， 可 以 参考 下 一 页 的 补充 内 容 ) 。 

接 下 来 ， 我 们 要 处 理 数字 和 字母 之 间 可 能 出 现 的 空格 。 我 们 知道 ， 
正则 表达 式 中 的 空格 字符 正好 对 应 匹配 文本 中 的 空格 字符 ， 所 以 “x* 能 
够 匹配 任意 数目 的 空格 〈 但 并 不 是 必须 出 现 空格 ) : 

if ($input =~ m/~([<+] ?[0-9]+4\.. [0=-9]*) 3) *( [CF] )S/) 

但 这 样 还 不 够 灵活 ， 而 我 们 希望 的 是 开发 一 个 能 够 实际 应 用 的 程 
序 ， 所 以 必须 容许 其 他 的 空 昌 字符 〈whitespace) 。 例 如 第 见 的 制 表 符 
(tabs) . BÆ x 并 不 能 匹配 空格 ， 所 以 我 们 需要 一 个 字符 组 来 匹 
配 两 者 [站]x 。 

请 把 上 面 这 个 子 表达 式 与 Cx E x) ,进行 对 比 ， 你 能 发 现 这 其 
中 的 巨大 差异 吗 ? mo 请 翻 到 下 一 页 查看 答案 。 

本 书 中 空格 字符 和 制 表 符 都 很 常见 ， 因 为 我 使 用 .和 四 来 表示 它 
们 。 不 幸 的 是 ， 在 屏幕 上 却 不 是 如 此 。 如 果 你 见 到 []* ， 在 没有 实际 测 
试 过 以 前 ， 只 能 猜测 这 是 空格 符 还 是 制 表 符 。 为 了 方便 使 用 ，Perl 提 供 
了 这 个 元 字符 。 它 能 够 匹配 制 表 符 一 一 相 比 真正 的 制 表 符 ， 它 的 好 
处 就 在 于 看 得 更 清楚 ， 所 以 我 会 在 正则 表达 式 中 采用 这 个 元 字符 。 于 是 
[图 ]x ÆR A, 

Perl 还 提供 了 一 些 简 便 的 元 字符 ， 例 如 "nn，( 表 示 换 行 符 ) ，"f 


(CASCII 的 进 纸 符 formfeed) ， 和 \b ( 退 格 符 ) 。 不 过 ， 确 切 地 说 ， 
,和 在 东 些 情况 下 是 退 格 符 ， 有 些 情况 下 叉 表示 单词 分 界 侍 。 它 怎么 能 
ARARE? 下 一 节 我 们 会 看 到 。 

一 扩 题 外 话 一 一 数量 丰富 的 元 字 稚 

在 前 面 的 例子 里 我 们 见 到 了 nm， 但 是 nn 都 出 现在 字符 串 而 不 是 正则 
表达 式 中 。 就 像 多 数 语言 一 样 ，Perl 的 字符 串 也 有 自己 的 元 字符 ， 它 们 
完全 不 同 于 正则 表达 式 元 字符 。 狐 程序 员 第 犯 的 错误 就 古 混 清 了 这 两 个 
概念 《VB.NET 和 是 个 例外 ， 因 为 其 中 字符 串 的 元 字符 少 得 可 怜 ) 。 字 符 
串 的 元 字符 中 有 一 些 跟 正 则 表达 式 中 对 应 的 元 字 从 一模一样 。 你 可 以 在 
字符 串 中 用 \t 加 入 制 表 符 ， 也 可 以 在 正则 表达 式 中 用 元 字符 \t 来 匹配 制 
LEAT o 


非 捕获 型 括号 (?:…) ， 


在 图 2-3 中 , 我 们 用 括号 包围 (\, [0-9]*)31 来 正确 分 组 ,所 以 我 们 能 够 用 一 个 问号 正 
确 地 作用 于 整个 \,[0-9]*j， 把 它们 作为 可 选项 部 分 。 这样 的 副作用 就 是 这 个 括号 内 
的 子 表达 式 横 获 的 文本 保存 到 $2 中 ,而 我 们 并 不 会 使 用 $2。 如 果 有 这 样 一 种 括号 ， 它 
只 能 用 于 分 组 ， 而 不 会 影响 文本 的 捕获 和 变量 的 保存 ， 问 题 就 好 办 多 了 。 
Perl 以 及 近期 出 现 的 其 他 正则 表达 式 流派 提供 了 这 个 功能 。(…) | 用 来 分 组 和 捕获 ,而 
(2:…)1 表 示 只 分 组 不 捕获 。 使 用 这 个 表示 法 ,“ 开 括号 ”是 3 个 字母 构成 的 序列 (?:， 
这 看 起 来 很 古怪 。 这 里 的 “?” 和 表示 “可 选项 ”的 ?1 元 字符 没有 任何 联系 (TWA 
到 第 90 页 了 解 这 个 古怪 的 表示 法 的 来 历 ) 
所 以 ， 整个 表达 式 变 成 ， 

if ($input =~ m/^([-+]?[0-9]+ (2?:\.[0-9]*)?) ([CF])$/) 
现在 ,即使 [CF] 1 两 端的 括号 的 确 是 排 在 第 三 位 , 它 匹 配 的 文本 也 会 保存 到 $2 F, A 
Ay! (?:…) | 不 会 影响 捕获 计数 ， 
这 样 做 的 好 处 有 两 点 。 第 一 是 避免 了 不 必要 的 捕获 操作 ， 提 高 了 匹配 效率 (我 们 会 在 
第 6 章 详细 讨 论 效率 问题 ) 。 另 一 个 好 处 是 ， 总 的 来 说 ， 根 据 情 况 选 择 合适 的 括号 能 够 
让 程序 更 清晰 ， 看 代码 的 人 不 会 被 括号 的 具体 细节 所 困扰 ， 
另 一 方面 ，(?:…)1 表示 法 确实 不 够 美观 ， 或 者 说 它 会 增加 整个 表达 式 的 阅读 难度 。 它 
带 来 的 好 处 能 够 抵消 这 些 问 题 吗 我 个 人 喜欢 根据 需要 选择 合适 的 括号 ， 但 是 在 本 例 
中 ， 或 许 不 值得 这 样 麻烦 。 如 果 匹 配 只 需要 进行 一 次 (而 不 需要 在 循环 中 多 痰 匹配 )， 
效率 并 不 重要 ， 
在 本 章 中 , 我 全 部 采用 (…) 1, 即使 不 需要 捕获 文本 时 也 是 如 此 ， 因为 这 样 看 起 来 更 清 
BR 


这 种 相似 性 无 疑 方便 了 使 用 ， 但 是 我 必须 强调 区 分 这 两 种 元 字符 的 
重要 性 。 对 于 st 这 样 商 单 的 情况 来 说 或 许 并 不 重要 ， 但 对 于 我 们 将 要 看 
到 的 各 种 不 同 的 语言 和 工具 来 说 ， 知 道 在 什么 情况 下 应 该 使 用 什么 元 字 
侍 征 极其 重要 的 。 


测验 从 有 


044 页 问题 的 答案 

[LR + fo! (-* |) | 的 异同 

(0% [Deh RH "或 网 * HLA, VRBLRET ERA (也 可 以 没有 ) 以 及 若干 
制 表 符 (也 可 以 没有 )， 不 过 并 不 容许 制 表 符 和 空格 符 的 混合 体 。 

WA, LE *1 能 够 匹配 任意 多 个 M, t FAR We, 它 可 以 匹配 3 次 ， 第 一 次 是 
制 表 符 ， 后 两 次 是 空格 符 。 

在 逻辑 上 ，[' 国 ] * 与 Ci) 5 是 等 价 的 ， 尽管 因为 第 4 章 将 会 解释 其 原因 ， 字 符 组 的 
效率 通常 还 是 会 高 一 点 ， 





我 们 已 经 见 过 不 同 的 字符 组 之 则 的 冲突 。 在 第 1 革 ， 使 用 egrep 时 ， 
我 们 把 正则 表达 式 包含 在 音 引 亏 中 。 整 个 egrep 命 令 行 与 在 command- 
shell 提 示 符 ，shell 能 够 认 出 它 目 己 的 元 字符 。 例 如 ， 对 shell 来 说 ， 空 格 
侍 束 是 一 个 元 字符 ， 它 用 来 分 隔 命 令 和 参数 ， 或 者 参数 与 参数 。 在 许多 
shell 中 ， 单 引号 是 元 字符 ， 蛙 引号 内 的 字符 串 中 的 字符 不 需要 被 当 作 元 
字符 处 理 〈DOS 使 用 双 引 号 ) 。 

在 shell 中 使 用 引 写 容许 我 们 在 正则 表达 式 中 使 用 空格 。 人 奋 则 ，shell 
会 把 空格 认 作 参数 之 间 的 分 隔 符 ， 而 不 是 把 整个 正则 表达 去 传递 给 
egrep。 许 多 shell 能 够 识别 的 元 字符 包括 $、 关 、? 之 类 一 一 我 们 在 正则 
表达 式 中 也 会 用 到 这 些 元 字符。 

目前 ， 所 有 关于 shell 的 元 字符 和 Pen 字符 串 的 元 字符 的 讨论 都 还 与 
正则 表达 式 本 身 没 有 任何 关联 ， 但 它们 会 影响 到 现实 环境 中 正则 表达 式 
的 使 用 。 随 看 阅读 的 深入 ， 我 们 会 见 到 许多 (有 时 候 还 很 复 洒 )〉 情况 ， 
我 们 需要 同时 在 不 同 层 级 上 使 用 元 字符 交互 (multiple levels of 
simultaneously interacting metacharacters) 。 

WA \b 的 情况 呢 ? 这 是 一 个 正则 表达 式 的 问题 ， 在 Perl 的 正则 表达 
却 中 ，'b, 通 名 是 匹配 一 个 单词 分 春 符 的 ， 但 是 在 字符 组 中 ， 它 匹配 一 
个 退 格 符 。 单 词 分 界 符 作 为 字符 组 的 一 部 分 则 没有 任何 意义 ， 所 以 Penl 
完全 可 以 用 它 来 匹配 其 他 的 字符 。 第 1 章 曾 提醒 我 们 ， 字 符 组 “ 子 语 
言 ”的 规范 不 同 于 正则 表达 式 主体 ， 这 条 规则 也 适用 于 Perl (包括 任何 其 
他 流派 的 正则 表达 式 〉。 


FA\sVO Ac Ata “28 A” 

Wea ANTI, Blase A 。 这 样 做 没 问题 ， 
但 许多 流派 的 正则 表达 式 提 供 了 一 种 方便 的 办 法 : Ns 。 Ns 看 起 来 类 似 
to At 代表 制 表 符 ， 而 \s 则 能 表示 所 有 表示 “ 空 日 字符 (whitespace 
character) ”的 字符 组 ， 其 中 包括 空格 符 、 制 表 符 、 换 行人 符 和 回 车 符 。 在 
我 们 的 例子 中 ， 换 行 符 和 回 车 符 并 不 需要 特别 考 铺 ， 但 是 \s 关 显然 比 
[sx 要 和 人 简洁。 而 且 不 久 你 就 会 习惯 这 种 表示 法 ， 在 复杂 的 表达 式 
中 ， \sk 更 加 易于 理解 。 

现在 我 们 的 程序 变 成 : 


input == m/* ( [=+]? [0-9] +(\,. [0-9] *) 7) a (CFI) S/ 


最 后 ， 我 们 还 必须 能 够 处 理 表 示 温 度 制式 的 小 写字 母 。 简 单 的 办 法 
是 直接 把 小 写字 母 添加 到 字符 组 中 ，'[CFcf] 。 不 过 ， 我 更 愿意 使 用 另 

$input=~m/A([-+]?[0-9]+(\.[0-9] * )?)\s * ([CFD)S$Ai 

添加 的 这 个 i 称 作 “ 修 饰 符 Cmodifier) ”， 把 它 放 在 m/.../ 结 构 之 后 ， 
告诉 Perl 进 行 不 区 分 大 小 写 的 匹配 。 修 饰 符 其 实 不 是 正则 表达 式 的 一 部 
分 ， 而 是 m/.../ 结 构 的 一 部 分 ， 这 个 结构 告诉 Perl 使 用 者 的 意图 (应 用 一 
个 正则 表达 式 ) ， 以 及 采用 的 正则 表达 式 “〈 在 矢 线 之 间 的 部 分 )》 o RAII 
曾 看 到 过 这 种 功能 ， 即 egrep 的 -i 参数 (15) 。 

MAY ZZ aia (the i modifier) ”有 点 抹 烦 ， 所 以 我 们 退 常 
说 Yi”， 即 使 真正 的 写法 并 不 是 Yi”。f/i 只 是 在 Perl 中 指定 修饰 符 的 办 法 
之 一 一 一 在 下 一 草 ， 我 们 会 看 到 其 他 的 办 法 ， 以 及 其 他 语言 实现 此 功能 
的 写法 。 在 本 章 后 面 的 部 分 ， 我 们 还 会 看 到 其 他 的 修饰 符 ， 例 如 /g〈 表 
示 “ 全 局 匹配 (global match) ”) VA A/x (EAN TERS AES A EIA TL Cfree- 
form expressions) ”) 。 


现在 ， 我 们 已经 做 了 不 少 修改 了 ， 来 看 看 新 的 程序 : 


6 perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
< E 

0.00 C is 32.00 F 

6 perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
50 c 

LO. C 了 50.00 F 


ME) 你 是 否 注 意 到 了 ， 第 二 次 运行 时 我 们 输入 的 是 摄氏 50 度 ， 结 
果 被 认 成 了 华氏 50 度 ? 看 看 程序 的 逻辑 ， 你 找 出 问题 了 吗 ”? 





再来 看 程序 的 片段 : 


下 三 


Stype = $3; # 把 数据 保存 到 以 命名 的 变量 ， 让 程序 更 易 懂 


if ($type eq “C”) { # ‘eg! 测试 两 个 字符 事 是 否 相 等 


虽然 我 们 的 正则 表达 式 能 够 接受 小 瑟 的 f， 程 序 的 其 他 部 分 却 没 有 
相应 的 修改 。 在 这 个 程序 里 ， 只 有 $type 是 ‘C’ 的 时 候 ， 才 作为 摄氏 上 度 处 
理 。 因 为 程序 同样 可 以 接受 小 与 的 c， 我 们 需要 修改 $type 的 判断 : 

if ($type eq "C" or $type eq "c") { 

实际 上 ， 因 为 本 书 是 关于 正则 表达 式 的 ， 我 或 许 这 样 做 : 

if (Stype=~m/c/i) { 

现在 ， 大 小 写 的 情况 都 能 应 付 了 。 最 终 的 程序 如 下 所 示 。 这 个 例子 
告诉 我 们 ， 正 则 表达 式 的 使 用 方式 ， 可 能 会 影 啊 到 程序 的 其 他 部 分 。 

示例 2-2: 温度 转换 程序 一 一 最 终 版 本 


print “Enter a temperature (e.g., 32F, 100C):\n"; 
Sinput = <STDIN>; # 接收 用 户 输 入 的 一 行文 本 
chomp ($input) ; # 去 掉 $input 末尾 的 换行 
if (Sinpur == m/*( [=F] 7 [(G=9]+(\. [0-9] *) Ye (LCR) 372) 
{ 
# 如 果 运行 到 此 ， 则 已 经 匹配 ，$1 保存 数值 ，$3 保存 C 或 者 F 
SInputNum = $1;  # 把 数据 保存 到 已 命名 的 变量 
Stype = $3; # .保证 程序 的 可 读 性 
if (Stype =~ m/c/i) { t is It “2” ar Yr 
# 输 入 的 是 摄氏 温度 ， 计 算 华 氏 温 度 
Scelsius = $InputNum; 
Sfahrenheit = (Scelsius * 9 / 5) + 32; 
} else { 
# 如 果 不 是 ”C”， 则 必定 是 ”F”， 所 以 计算 摄氏 温度 
Sfahrenheit = $InputNum; 
Scelsius = ($fahrenheit - 32) * 5 / 9; 
} 
# 现在 两 个 值 吉 有 了 ， 输 出 结果 : 


printf “%.2f C is %.2f F\n”, Scelsius, $Sfahrenheit; 
} else { 


# 开始 的 表达 式 无 法 匹配 ， 发 出 警报 
print “Expecting a number followed by \"”C\” or WEW, \n”; 
print “so I don"t understand \"Sinpit\”. u 


EE Jr ZI 

Intermission 

尽管 本 章 的 大 部 分 扁 幅 是 关于 熟悉 Perl 上 的 ， 但 也 遇 到 了 许多 新 的 关 
于 正则 表达 式 的 知识 。 

1. 主 多 工具 虱 有 有 目 己 的 正则 表达 式 流 派 。Perl 和 egrep 可 能 属于 同一 
个 流派 ， 但 是 Perl 的 正则 表达 式 中 的 元 字符 更 多 。 许 多 其 他 的 语言 ， 类 
似 Java、Python、.NET 和 TCL， 它 们 的 流派 类 似 Perl。 

2.Perl 用 $variable= 一 myregex/ 来 判断 一 个 正则 表达 式 是 否 能 匹配 某 
个 字符 串 。m 表 示 “ 匹 配 (match) ”， 而 笠 线 用 来 标注 正则 表达 式 的 边界 
(它们 本 号 不 属于 正则 表达 式 ) 。 整 个 测试 语句 作为 一 个 单元 ， 返 回 
trues 4 false(# - 

3. 元 字符 一 一 具有 特殊 意义 的 字符 时 定义 在 正则 表达 式 中 并 不 





是 统一 的 。 之 前 在 关于 shell 和 双 引 号 引用 的 字符 串 的 例子 中 我 们 讲 过 ， 
元 字符 的 含义 取决 于 具体 的 情况 。 了 解 具 体 情 况 〈(shell、 正 则 表达 式 、 
字符 串 ) ， 其 中 的 元 字符 及 其 作用 ， 对 学 习 和 使 用 Perl、PHP、Java、 
Tcl. GNU Emacs, awk, Python 或 其 他 高 级 语言 是 非常 重要 的 《当然 ， 
A 字符 组 有 目 己 的 “于 语言 ”， 其 中 的 元 字符 是 不 同 
J) o 

4. Perl REMIK EURIARI SITS AY eye 

(shorthands) : 
\t 制 表 符 
\n 换行 符 
\r 回 车 符 
\s 任何 “空白 ”字符 (例如 空格 符 、 制 表 符 、 进 纸 符 等 ) 
\S 除 \sl 之 外 的 任何 字符 
Vw [1 (Wt 中 很 有 用 ， 可 以 用 来 匹配 一 个 单词 ) 
\W 除 \wj 之 外 的 任何 字符 ， 也 就 是 [^a-zR-20-9] 
\d [0-9]J， 即 数字 
\D 除 \dl 外 的 任何 字符 ， 即 [^0-9] 

5./i 修 饰 符 表示 此 测试 不 区 分 大 小 写 。 尽 管 写 法 是 “ii ， 其 实 “i 只 是 
PR TERR AN EIR RZ J o 

6. C2: ...) 这 个 厂 烦 的 写法 可 以 用 来 分 组 文本 ， 但 并 不 捕获 。 

7. 匹 配 成 功 之 后 ，Perl 可 以 用 $1、$2、$3 之 类 的 变量 来 保存 相对 应 
WC. 括号 内 的 子 表 达 式 匹配 的 文本 。 使 用 这 些 变 量 ， 我 们 能 够 用 
正则 表达 式 从 字符 串 中 提取 信息 《其 他 的 语言 所 使 用 的 方式 有 所 不 同 ， 
我 们 会 在 下 一 章 看 到 例子 〉。 

子 表 达 式 的 编号 按照 开 插 写 的 出 现 先后 排序 ， 从 1 开始 。 子 表达 式 
PURE, 例如 | CWashington CDC) ? ) 」。 如 果 只 是 和 希望 分 组 ， 
也 可 以 使 用 '(...， ， 但 副作用 是 ， 它 们 捕获 的 文本 仍然 会 你 存 到 特殊 
的 变量 中 。 


使 用 正则 表达 式 修 改 文本 


Modifying Text with Regular Expressions 
到 现在 ， 我 们 员 到 的 例子 都 只 是 从 字符 串 中 “提取 ”信息 。 现 在 我 们 
Perl 和 其 他 许多 语言 提供 的 一 个 正则 表达 式 特 性 BR 
(Csubstitution， 也 可 以 叫 “ 碍 找 和 蔡 换 (search and replace) ”) 。 

我 们 已 经 看 到 ，$var= 一 mregex/ 笑 试用 正则 表达 式 来 瑟 配 保存 在 
变量 中 的 文本 ， 并 人 返回 表示 能 人 否 匹 配 的 布尔 值 。 与 之 类 似 的 结构 $var= 
一 s/regex/replacement/ 则 更 进一步 : 如 果 正 则 表达 式 能 够 岂 配 $var 中 的 
未 段 文本 ， 则 将 这 上段 匹配 的 文本 稚 换 为 replacement。 其 中 regex 与 之 前 my/ 
.../ 的 用 法 一 样 ， 而 replacement 〈 位 于 第 二 个 和 第 三 个 斜 线 之 间 ) 则 是 作 
为 双 引 号 内 的 字符 串 。 这 就是 说 ， 在 其 中 可 以 使 用 变量 一 一 例如 $1、$2 
一 一 来 引用 之 前 匹配 的 具体 文本 。 

所 以 ， 使 用 $var= 一 s/.../.../ 可 以 改变 $var 中 的 文本 《如 末 没 有 找到 
匹配 的 文本 ， 也 就 不 会 有 替换 发 生 ) 。 例 如 ， 如 果 $var 包 括 Jeff.Friedl， 
运行 : 

$var=~ s/Jeff/Jeffrey/; 





Svar Hy TEL WEE By Jeffery-Friedl. WRIT — R, TS 
Jeffreyrey:Friedl. H I¥ fui atta ol, ITRI] i Se Ae PAY 


-一 12> Ay 


元 字符 。 在 第 1 RNR, FLEA egrpiF < 和 人 > 作 
为 “单词 起 始 ”" 和 “单词 结束 ”的 元 字符 。Perl 提 供 了 统一 的 元 字符 \b 来 代 
表 这 两 者 : 

$var=~s/bJeff\b/Jeffrey/; 

这 里 有 个 小 测验 : 与 m/.../ 一 样 ，s/.../.../ 也 可 以 使 用 修饰 符 ， 例 如 
第 47 页 介绍 的 和 《将 这 个 修饰 符 放 在 replacement 之 后 ) 。 那 么 ， 这 个 表 
IAT: 

$var=~s/\bJeff\b/Jeff/i; 

的 功能 是 什么 呢 ? 加 请 翻 到 下 页 答 看 答案 。 


例子 : 公函 生成 程序 
Example:Form Letter 


-下面 这 个 有 趣 的 例子 展示 了 文本 合 换 的 用 途 。 设 想 有 一 个 公函 系 
统 ， 它 包含 很 多 公函 模板 ， 其 中 有 一 些 标 记 ， 对 每 一 封 具体 的 公函 来 


说 ， 标 记 部 分 的 值 都 有 所 不 同 。 
beat PFI, 
You have been chosen to win a brand new =TRINKET=! Free! 


Could you use another =TRINKET= in the =FAMILY= household? 
Yes =SUCKER=, I bet you could! Just respond by...... 


对 特定 的 接收 入 ， 变 量 的 值 分 别 为 : 


Sgiven = “Tom”; 
Sfamily = “Cruise”; 
Swunderprize = “100% genuine faux diamond”; 


准备 好 之 后 ， 束 可 以 用 下 面 的 语句 “填写 模板 ”: 
Sletter =~ s/=FIRST=/Sgiven/g; 
Sletter =~ s/=FAMILY=/Sfamily/g; 
Sletter =~ s/=SUCKER=/Sgiven Sfamily/g; 
Sletter =~ s/=TRINKET=/fabulous Swunderprize/g; 


其 中 的 每 个 正则 表达 却 首 先 搜索 简单 标记 ， 找 到 之 后 用 指定 的 文本 
替换 它 。 用 于 替换 的 文本 其 实 是 Perl 中 的 字符 串 ， 所 以 它们 能 够 引用 变 
量 ， 残 像 上 面 的 程序 那样 。 例 如 ， 
直面 线 部 分 在 程序 运行 时 
的 值 就 是 “fabulous$wunderprize”。 如 末 只 需要 生成 一 份 公 冰 ， 完 全 可 以 
不 用 变量 蔡 换 ， 和 直接 照 需 要 的 样子 生成 就 是 。 但 是 ， 使 用 变量 丛 换 能 够 
实现 目 动 化 的 操作 ， 例 如 可 以 从 一 个 清单 读 入 信息 。 

我 们 还 没 介绍 过 /g“ 全 局 蔡 换 ”(global replacement) 的 修饰 符 。 它 
告诉 s/.../.../ 在 第 一 次 蔡 换 完成 之 后 继续 搜索 更 多 的 匹配 文本 ， 进 行 更 
多 的 殖 换 。 如 采 需 要 检 碍 的 字符 串 包 售 多 行 需要 葵 换 的 文本 ， 每 条 蔡 换 
规则 都 对 所 有 行 生 效 ， 我 们 就 必须 使 用 /g。 

结果 十 可 以 预见 的 ， 不 过 相当 有 趣 : 

Dear Tom, 

You have been chosen to win a brand new fabulous 100% genuine faux diamond! 
Free! Could you use another fabulous 100% genuine faux diamond in the Cruise 
household? Yes Tom Cruise, I bet you could! Just respond by.... 


举例 :修整 股票 价格 


Example:Prettifying a Stock Price 


FA PIF HE, REH Perl 编写 的 股票 价格 软件 时 过 到 的 问题 。 
我 得 到 的 价格 看 起 来 是 这 样 “9.0500000037272”。 这 里 的 价格 显然 应 该 是 
9.05， 但 是 因为 计算 机 内 部 表示 浮 点 的 原理 ，Pe@rl 有 时 会 以 没什么 用 的 
格式 输出 这 样 的 结果 。 我 们 可 以 像 温度 转换 例子 中 的 那样 用 printf 来 保 
证 只 输出 两 位 小 数 ， 但 是 此 处 并 不 适用 。 当 时 ， 股 价 仍然 是 以 分 数 的 形 
式 给 出 的 ， 如 果菜 个 价格 以 /8 结尾 ， 则 应 该 输出 3 位 小 数 (“.125”) ， 
而 不 是 两 位 。 


测验 答案 


50 页 的 测验 的 答案 

Svar =~ s/\bJeff\b/Jeff/i 实现 了 什么 功能 ? 

这 个 问题 可 能 让 你 困惑 。 如 果 前 面 的 正则 表达 式 用 \bJEFF\pl 或 者 \bjeff\bl 或 者 是 
\bjEfF\bj 可 能 看 得 更 清楚 。 因 为 /i 的 存在 ， 搜 索 “Je 人 f” 这 个 词 是 不 区 分 大 小 写 的 。 
而 所 有 匹配 的 字符 串 都 会 被 替换 为 “Jeff"， 第 一 个 字母 是 大 写 ， 其 他 为 小 写 (/i 对 
replacement 的 文本 没有 影响 ， 不 过 第 7 章 讨 论 的 菜 些 修饰 从 不 是 如 此 )， 

结果 就 是 ， jeff 这 个 单词 ， 无 论 大 小 写 的 情况 如 何 ， 都 会 被 替换 为 ”Jeff 。 





我 把 自己 的 要 求 归结 为 ， 通 常 是 保留 小 数 点 后 两 位 数字 ， 如 果 第 三 
位 不 为 零 ， 也 需要 保留 ， 去 掉 其 他 的 数字 。 结 果 就 是 


12.3750000000392 、，12.375 人 。 、 37.500, 
一 一 或 者 ——$ 2 SIE IE AN“12.375”, w 一 一 极 修 


正 为 “37.50"”。 这 融 是 我 要 的 结果 。 

那么 ， 我 们 该 如 何 做 呢 ? $price 变 量 包 含 了 需要 修正 字符 串 ， 让 我 
们 用 这 个 表达 式 : 

$price=~s/(\.\d\d[1-9]?)\d * /$1/ 

GER: 49 页 介绍 了 d 这 个 元 字符 ， 它 用 来 匹配 一 个 数字 字 
Fo ) 

最 开始 的 个 匹配 小 数 点 。 接 下 来 的 Add 匹配 开头 的 两 位 数字 。 
[1-9]? ,匹配 可 能 跟 在 后 面 的 非 堆 数字。 到 这 里 ， 任 何 匹配 的 文本 都 是 
我 们 希望 你 留 的 ， 所 以 我 们 用 括号 把 它 你 存 到 $1 中 。 然 后 将 $1 放 入 
replacement 字 从 串 中 。 如 末 能 够 思 配 的 文本 就 是 $1， 我 们 束 用 $1 蔡 换 $1 
这 样 做 没什么 意义 。 但 如 有 果 在 $1 的 括号 之 外 还 有 能 够 匹配 的 字符 ， 
因为 它们 没有 出 现在 replacement 字 符 串 中 ， 所 以 会 被 删除 。 也 束 是 





Ub,» “被 删除 的 > 文本 是 其 他 多 余 的 数字 ， 也 融 是 正则 表达 去 末 尾 dx, 
匹配 的 字符 。 

请 记 住 这 个 例子 ， 在 第 4 ERIRE A DORE S Ja HY BE, 
那 时 候 还 会 过 到 这 个 例子 。 研 究 它 可 以 学 到 非 第 有 价值 的 知识 。 


目 动 的 编辑 操作 


Automated Editing 

写作 本 章 时 ， 我 过 到 了 万 一 个 简单 但 其 实 存在 的 例子 。 当 时 我 责 要 
登录 到 太平 洋 对 导 的 一 台 机 右上 ， 但 是 网 速 非 第 慢 。 按 下 回 车 得 等 一 分 
多 钟 才 能 见 到 反应 ， 而 我 只 需要 对 某 个 文件 进行 一 些小 的 改动 ， 运 行 一 
个 重要 的 程序 。 实 际 上 ， 我 要 做 的 只 是 将 出 现 的 所 有 sysread 改 为 read。 
a 但 因为 网 络 太 慢 ， 使 用 全 屏 编 辑 右 显然 古 不 可 能 

下 面 古 我 的 办 法 : 

% perl-p-i-e's/sysread/read/g'file 

这 条 命令 中 的 Perl 程 序 是 s/sysread/read/g (是 的 ， 这 就 是 一 个 完整 
的 Perl 程 序 一 一 参数 -e 表示 整个 程序 接 在 命令 的 后 面 ) 。 参 数 -p 表示 对 
OM 而 -i 表 示 将 符 换 的 结束 与 回 到 文 

请 注意 ， 这 里 没有 明确 写 出 得 找 和 符 换 的 目标 字符 串 〈 就 是 说 ， 没 
有 $var= 一 .…) ， 因 为 -p 参 数 束 表示 对 目标 文件 的 每 行文 本 应 用 这 上段 程 
序 。 同 样 ， 因 为 我 用 了 /g 这 个 修饰 从 ， 束 可 以 你 证 在 一 行文 本 中 可 以 进 
TERE. 

尽管 在 这 里 我 只 是 对 一 个 文件 进行 操作 ， 但 也 很 容易 在 命令 行 中 列 
出 多 个 文件 ， 而 Perl 会 把 荐 换 命 令 应 用 到 每 个 文件 的 每 一 行文 字 。 这 
样 ， 只 需要 一 条 催 单 的 命令 ， 我 可 能 够 编辑 大 量 的 文件 。 这 样 简单 的 编 
EIIE Perl 独 有 的 ， 但 这 个 例子 各 诉 我 们 ， 即 使 执行 的 是 简单 的 任 
务 ， 作 为 脚本 语言 一 部 分 的 正则 表达 式 的 功能 仍然 非常 强大 。 


处 理 邮 件 的 小 工具 





A Small Mail Utility 

来 看 男 一 个 小 工具 的 例子 。 一 个 文件 中 你 和 存 看 E-mail 信息 ， 我 们 需 
要 生成 一 个 用 于 回复 的 文件 。 在 准备 过 程 中 ， 我 们 需要 引用 原始 的 信 
晨 ， 这 样 就 能 很 容易 地 把 回复 插入 各 个 部 分 。 在 生成 回复 邮件 的 header 


时 ， 我 们 还 需要 删除 原始 信息 邮件 的 header 中 不 需要 的 行 。 

下 一 页 的 补充 内 容 是 一 个 邮件 文件 的 范本 。header 包含 了 我 们 关心 
的 字段 : 日 期 、 主 题 等 一 但 也 包括 了 我 们 不 关注 的 字段 ， 这 些 字 段 需 
要 删除 。 如 果 我 们 的 脚本 程序 叫做 mkreply， 而 原始 的 信息 保留 在 king.in 
中 ， 我 们 会 用 下 面 的 命令 来 生成 回复 模板 : 

% perl-w mkreply king.in > king.out 

(-w'E FART] F Perl iy Uh 33 or ne, 38) 





E-mail Message 范本 


From elvis Thu Feb 29 11:15 2007 

Received: from elvis@localhost by tabloid.org (8.11.3) id KA8CMY 
Received: from tabloid.org by gateway.net (8.12.5/2) id N8XBK 
To: jfriedl@regex.info (Jeffrey Friedl) 

From: elvis@tabloid.org (The King) 

Date: Thu, Feb 29 2007 11:15 

Message-Id: <2007022939939.KA8CMY@tabloid.org> 

Subject: Be seein' ya around 

Reply-To: elvis@hh.tabloid.org 

X-Mailer: Madam Zelda's Psychic Orb [version 3.7 PL92] 


Sorry I haven't been around lately. A few years back I checked into 
that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
The Duke says “hi”. 

Elvis 





我 们 希望 程序 的 输出 结果 king.out 包 括 下 面 的 内 容 : 


To: elvis@hh.tabloid.org (The King) 
From: jfriedl@regex.info (Jeffrey Friedl) 
Subject: Re: Be seein' ya around 


On Thu, Feb 29 2007 11:15 The King wrote: 

|> Sorry I haven't been around lately. A few years back I checked 
|> into that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
|> The Duke says “hi”. 

> Elvis 


现在 我 们 来 分 析 。 为 了 生成 新 的 ” header， 我 们 需要 知道 目标 地 址 
( 即 本 例 中 的 ”elvis@hh.tabloid.org， 来 自 原始 信息 中 的 ”Reply-To = 
段 ，， 收 件 人 的 姓名 (The King) ， 我 们 自己 的 地 址 和 姓名 ， 以 及 主 


题 。 另 外 ， 为 了 生成 邮件 正文 的 寻 入 部 分 (introductory line) ， 我 们 还 
需要 知道 原始 邮件 的 日 期 。 

这 些 工 作 可 以 分 为 下 面 3 步 : 

1. 从 原始 邮件 的 header 中 提取 信息 ; 


2. 生 成 回复 邮件 header; 
3. 打 印 原 始 邮 件 信 息 ， 行 首 用 ?>… 缩 进 。 
这 样 考 虑 有 点 超前 了 ERA RE PEPE UIA BE ZA, RK 





Ceana S o SEIBA AE, Perltt ft (HARI SREI. FE 

应 用 到 变量 $variable 时 ， 使 用 “$variable= 二 > 盖 ”， 这 个 有 趣 的 结构 能 人 够 每 

次 谈 入 一 行 数据 。 输 入 的 数据 来 和 目 命令 行 中 Perl 脚 本 之 后 列 出 的 文件 名 
(例如 上 面 例子 中 的 king.in) 。 

请 不 要 混 消 操作 符 科 > 与 Shell 的 重 定 同 符 号 “>filename” 或 者 是 Perl 
的 大 于 /小 于 号 。Perl 中 的 二 过 相当 于 其 它 语 言 中 的 getline O AA. 

证 入 所 有 输入 数据 之 后 ， 二 过 很 方便 地 返回 未 定义 的 值 〈 作 为 布尔 
值 处 理 ) ， 所 以 整个 文件 可 以 这 样 处 理 : 

while ($line = <>) { 
Ab EY Sline... 
} 

我 们 会 用 类 似 的 办 法 来 处 理 邮 件 ， 但 是 邮件 本 号 的 性 质 决 定 了 我 们 
必须 对 邮件 header 特殊 人 处理。 第 一 个 空 行 之 前 的 信息 是 header， 之 后 的 
则 是 正文 部 分 。 为 了 只 读 入 header， 我 们 可 以 使 用 下 面 这 段 代 码 。 

# A header 
while (Sline = <>) { 
if ($line =~ m/^\s*$/) { 
last; # 停止 while ARKAA, BRAK 
} 
... rd header 信息 。,， 
} 
. .. 处理 邮件 内 的 其 他 信息 ... 

FAI Asx $ 来 检查 表示 邮件 header 结 束 的 空 行 。 这 个 正则 表达 式 
检查 的 是 ， 当 前 的 文本 行 是 否 有 一 个 行 开 头 〈 其 实 每 一 行 都 有 ， 由 胶 字 
符 匹 配 ) ， 然 后 跟 痢 任意 数目 的 空 日 字符 〈 尽 党 我 们 并 不 期 望 有 任何 衬 
白字 符 ) ， 然 后 字符 串 结 束 〈 注 3) 。 关 键 词 last 会 跳出 while 循 环 ， 停 止 
处 理 header。 

所 以 ， 在 循环 内 部 ， 在 空 行 检测 之 后 ， 我 们 能 够 按照 目 己 的 想法 来 


header 的 每 一 行 。 在 本 例 中 ， 我 们 希望 提取 信息 ， 例 如 邮件 的 主题 
时间。 
要 提取 主题 ， 我 们 可 以 使 用 一 个 常见 的 技巧 : 
if ($line =~ m/*Subject: (.*)/i) { 
Ssubject = $1; 
} 
这 段 代码 尝试 风 配 一 个 以 ‘Subject: … 开 头 ， 但 不 区 分 Subject 大 小 与 
的 字符 串 。 如 有 果 能 够 匹配 ， 后 面 的 .类 匹配 这 一 行 的 其 他 部 分 。 因 为 ' 
x 在 括号 中 ， 所 以 之 后 我 们 能 用 $1 ”来 访问 邮件 的 主题 。 在 这 个 例子 
中 ， 我 们 希望 把 它 保存 到 变量 $subject 中 。 当 然 ， 如 果 正 则 表达 式 无 法 
匹配 这 个 字符 串 《〈 大 多 数 情况 下 都 不 能 ) » Zh Rete if 语句 返回 结果 为 
false, $subject t ERA EM. 


关于 HSS 


.xj 通常 用 来 表示 “一 组 任何 字符 ”(a bunch of anything) ， 因 为 点 号 可 以 匹配 任何 字 
符 (在 某 些 工具 中 ， 不 包括 换行 符 ) ， 而 星 号 表示 可 以 为 任意 数目 ， 但 并 非 必须 。.* 


可 能 很 有 用 。 

不 过 ， 如 果 把 .xj 作为 整个 正则 表达 式 的 一 部 分 ， 而 用 户 又 不 真正 了 解 其 中 的 原理 ， 
就 可 能 陷入 某 些 隐藏 的 “陷阱 。 我 们 已 经 看 到 过 一 个 例子 ($26), ALR 4 章 深 
入 讨论 这 个 话题 的 时 候 见 到 更 多 的 例子 (他 164) 





我 们 可 以 用 同样 的 办 法 来 处 理 Date 和 Reply-To 字 段 ; 
if ($line =~ m/^Date: (.*)/i) { 
Sdate = $1; 
} 
if ($line =~ m/*Reply-To: (.*)/i) { 
sreply address = $1; 
} 
From: 所 在 的 行 稍微 麻烦 一 点 。 首 先 ， 我 们 需要 找到 以 "From: “FF 
头 的 行 ， 而 不 和 是 以 下 om… 开 头 的 第 一 行 。 我 们 需要 的 走 : 
From:elvis@tabloid.org (The King) 
它 包 含 了 邮件 的 友 这 地 址 ， 友 壕 者 的 姓名 在 括号 内 ， 我 们 要 提取 的 
是 姓名 (译注 1) 。 


我 们 用 '^AFrom: : ASH) 来 提取 发 送 地 址 。 你 可 能 猜 到 了 ， NS 匹 
配 的 是 所 有 的 非 空 白字 符 (49) ， 所 以 \S+ 匹配 第 一 个 空白 之 前 的 文 
本 【或 者 目标 文本 末尾 之 前 的 所 有 字符 ) 。 在 本 例 中 ， 融 是 邮件 的 发 送 
地 址 。 匹 配 之 后 ， 我 们 希望 匹配 括号 内 的 文字 。 显然 ， 此 处 也 需要 匹配 
括号 本 身 。 我 们 用 \〈 和 人 ) 来 匹配 ， 转 义 之 后 的 括号 不 再 具有 特殊 的 
RES 在 括号 内 ， 我 们 希望 匹配 任何 字符 除了 括号 之 外 的 任何 字 
从 ， 所 以 及 用 [个 () ]x 。 记 住 ， 字 从 组 的 元 字符 不 同 于 正则 表达 式 
的 “普通 ”元 字符 ， 在 字符 组 内 部 ， 括 号 不 再 具有 特殊 售 义 ， 因 此 也 不 需 
HARE NL 

综合 起 来 ， 我 们 得 到 : 

| From::(\s+)-\(((AQ] * )\), 
AHS SA H, 急用 起 来 个 太 好 懂 ， 图 2- Ait 释 得 更 清楚 : 


“From: (\S+) \(([^()]*)\) 


保存 到 $1 保存 到 $2 





图 2-4: HEWES, $14082 
如 果 图 2-4 的 正则 表达 式 能 够 匹配 ， 我 们 可 以 通过 $2 得 到 发 送 者 的 
姓名 ， 从 $1 得 到 可 能 的 回复 地 址 。 
if ($line =~ m/*From: (\s+) \(([^()]*)\)/i) { 
reply address = $1; 
ofrom name = $2; 
} 
并 非 所 有 的 E-mail 信息 都 包含 Reply-To 字 段 ， 所 以 我 们 把 $1 暂 定 为 


回复 地 址 。 各 果 之 后 出 现 了 $Reply- To 字段 ， 我 们 会 重 设 
$reply_address. KA ERAI E]: 


while (Sline = < >) 


if ($line =~ m/*\s*$/ ) { + 如 采 存 在 空 行 
last; # 就 立即 结束 while 循环 


if ($line =~ m/*Subject: (.*)/i) { 
Ssubject = $1; 


if ($line =~ m/*Date: (.*)/i) { 
Sdate = $1; 


if ($line =~ m/*Reply-To: (\st+)/i) i 
sreply address = $1; 


if ($line =~ m/*From: (\st+) \(([*()]*)\)/i) 1 
Sreply address = $1; 
Sfrom name = $2; 
} 
} 


这 段 程序 检查 header 的 每 一 行 ， 如 果 某 个 正则 表达 式 能 够 匹配 ， 则 
设置 相应 的 变量 。header 的 许多 行 无 法 由 这 些 正则 表达 式 思 配 ， 所 以 会 
while 人 循环 结束 之 后 ， 我 们 就 能 够 生成 回复 邮件 的 header SCE 

4): 

print “To: Sreply address ($from name) \n”; 

print “From: jfriedl\@regex.info (Jeffrey Friedl) \n”; 

print “Subject: Re: Ssubject\n”; 

print “\n” ; # blank line to separate the header from message body. 


请 注意 ， 我 们 在 主题 之 前 加 上 了 Re: ， 表 示 这 是 一 封 回 复 邮 件 。 
最 后 ， 在 header 之 后 ， 我 们 列 出 原始 邮件 的 内 容 : 
print "On $date $from_name wrote:\n"; 
对 于 其 他 的 输入 信息 也 束 古 原始 邮件 的 正文 部 分 )， 我 们 在 每 一 
行 之 前 添加 4 六 … 提 示 符 : 
while ($line = < >) { 
print ~> Slane’; 


} 
有 意思 的 是 ， 这 上 段 程序 也 可 以 用 为 一 种 方法 ， 使 用 正则 表达 式 来 加 
入 引用 提示 符 : 


$line =~ s/*/|> /; 
print $line; 

Ik RAS PK. FERED AT E REMA. IRR TR 
命令 把 字符 串 开 头 那 个 “不 存在 的 字符 的 蔡 换 ? 为 94>…”， 其 实 并 没有 蔡 换 
任何 字符 ， 只 是 在 字符 串 的 开头 加 入 4>…”。 在 本 例 中 这 样 做 有 点 扯 用 的 
嫌疑 了 了， 但 是 我 们 将 在 本 章 中 看 到 类 似 《〈“ 但 更 有 用 ) 的 例子 。 

真实 世界 的 问题 ， 真 实 世界 的 解读 

既然 探 出 了 一 个 真实 世界 的 例子 ， 束 应 该 指 出 这 个 解法 在 真实 世界 
中 的 缺憾 。 我 已 经 说 过 ， 这 些 例子 的 目的 在 于 展示 正则 表达 式 的 使 用 方 
法 ， 而 Perl 程序 不 过 是 展示 的 手段 。 我 使 用 的 Perl 程序 并 不 一 定 使 用 
了 最 有 效 或 者 最 好 的 解法 ， 但 是 ， 我 希望 它 能 说 明正 则 表达 式 的 用 法 。 

同样 ， 真 实 世 界 的 邮件 信息 比 这 个 简单 问题 中 的 邮件 信息 复杂 很 
Z. From: 这 一 行驶 可 能 有 许多 种 格式 ， 而 我 们 的 程序 只 能 处 理 一 种 。 
如 果真 正 的 From: 这 一 行 无 法 匹配 我 们 的 模式 ， 则 $from_name 变 量 束 
不 会 设置 ， 使 用 时 保持 在 未 定义 的 状态 《也 残 是 “没有 值 ?的 人 的 一 
种 ) 。 理 想 的 解决 办 法 是 修改 这 个 正则 表达 式 ， 让 它 能 够 处 理 各 种 不 同 
的 邮件 地 址 /姓名 格式 ， 不 过 ， 作 为 第 一 步 ， 在 检查 原始 邮件 之 后 《〈 生 
成 回复 模板 之 前 ) ， 我 们 可 以 这 样 : 

IE f not defined(Sreply address) 

or not defined($Sfrom name) 
or not defined ($subject) 
or not defined ($date) ) 

{ 


die “couldn't glean the required information!”; 


} 

Per 的 defined 函 数 检 得 一 个 变星 征 侣 设置 了 信 ， mdi H XA H 
音 误 信息 ， 退 出 程序 。 

兄 一 点 需要 考虑 的 是 ， 程 序 假设 From: 这 一 行 出 现在 Reply-To: 


Alo BOER From: Hite ZJa, MAR te MReply-Toh yy 
$reply_address ~ 
“真正 的 ?真实 世界 


发 迹 电子 邮件 的 程序 有 许多 类 ， 每 类 程序 对 标准 的 理解 都 不 一 样 ， 
所 以 处 理 电 子 邮 件 并 不 是 件 简 单 的 事情 。 我 曾经 想 用 Pascal 程序 来 处 理 
电子 邮件 ， 但 我 发 现 ， 如 果 没 有 正则 表达 式 ， 处 理 起 来 极其 困难 ， 困 难 
到 我 决定 先 用 Pascal 写 一 个 类 似 Perl 的 正则 表达 式 包 ， 再 来 做 其 他 事情 。 
进入 没有 正则 表达 式 的 世界 之 后 才 发 现 ， 自 己 已 经 习惯 正则 表达 式 的 功 


能 和 便捷 了 ， 而 我 显然 不 希望 在 没有 正则 表达 式 的 世界 呆 太 久 。 
FA A eA BUE IME y 


Adding Commas to a Number with Lookaround 

KRŽE, RRA Ss, SER DATE. PRN: 

print "The US population is $pop\n"; 

可 能 输出 “The US population is 298444215”， 但 对 大 多 数 说 英语 的 人 
来 说 ,，“298，444，215” 看 起 来 更 加 自然 。 用 正则 表达 式 该 如 何 做 呢 ? 

动脑 子 想 想 这 个 问题 ， 我 们 应 该 从 这 个 数 的 右边 开始 ， 每 次 数 3 位 
数字 ， 如 采 左 边 还 有 数字 的 话 ， 束 加 入 一 个 逗号。 如 采 我 们 能 把 这 种 思 
路 直接 用 到 正则 表达 式 中 当然 很 好 ， 可 展 正 则 表达 式 一 般 都 是 从 左 同 右 
工作 的 。 不 过 梳理 一 下 思路 就 会 发 现 ， 逐 号 应 该 加 在 “左边 有 数字 ， 碳 
边 数字 的 个 数 正 好 是 3 的 倍数 的 位 置 ?， 这 样 ， 使 用 一 组 相对 较 新 的 正则 
表达 式 特性 一 一 它们 统称 为 “环视 (lookaround) ” 轻松 地 解决 这 个 
问题 。 

环视 结构 不 匹配 任何 字符 ， 只 匹配 文本 中 的 特定 位 置 ， 这 一 点 与 单 
WIAT Vb. HARA M'S 相似 。 但 是 ， 环 视 比 它们 更 加 通用 。 

一 种 类 型 的 环视 叫 “ 顺 序 环 视 (lookahead) ”， 作 为 表达 式 的 一 部 
To WFAA MERA) Be CAS, sei VOR RIAL, WR BE 
够 死 配 ， 残 返回 匹配 成 功 信息 。 肯 定型 顺序 环视 (positive lookahread ) 
用 特殊 的 序列 '(? =...) 来 表示 ， 例 如 '(? sd) ， 它 表示 如 来 当前 
位 置 右边 的 字符 是 数字 则 匹配 成 功 。 另 一 种 环视 称 为 逆序 环视 ， 它 道 序 
CMA IAL) BAMA. ERA O <=...) 表示， 例如 
C? <sd) ， 如 末 当 前 位 置 的 左边 有 一 位 数字 ， 则 匹配 成 功 〈( 也 就 是 
Ui, AIREA JATIN) 。 

环视 不 会 “占用 ”字符 

在 理解 顺序 环视 和 其 他 环视 功能 时 需要 特别 注意 一 点 ， 即 在 检查 于 
表达 式 能 人 寿 逻 配 的 过 程 中 ， 它 们 本 里 不 会 “占用 ”任何 文本 。 这 可 能 有 有 点 
HE, MAREE TS APF. ERIX Jeffrey, 匹配 : 

by Jeffrey Friedl. 

但 同样 的 正则 表达 式 ， 如 果 使 用 顺 友 环视 功能 ， 即 ' (? 

=Jeffrey) ,， 则 匹配 标记 的 位 置 : 
„by Jeffrey Friedl. 








顺序 环视 会 检查 子 表 达 式 能 售 匹 配 ， 但 它 只 寻找 能 够 瑟 配 的 位 置 ， 
而 不 会 真正 * 占 用” 这些 字符 。 不 过 ， 把 顺序 环视 和 真正 匹配 字符 的 部 分 
一 一 例如 ‘Jeff 结合 起 来 ， 我 们 能 得 到 比 单 纯 的 Jeff 更 精确 的 结 
果 。 结 合 之 后 的 正则 表达 式 是 '(? =Jeffrey) Jeff ， 下 一 页 的 图 说 明 ， 
它 只 能 逻 配 “Jeffrey” 这 个 单词 中 的 “Jeff*。 它 能 够 岂 配 : 
DY Jeffrey Friedl. 


在 此 处 它 的 匹配 和 单纯 的 Jeff, 一 样 ， 但 是 下 和 面 的 情况 不 会 思 配 : 

...by Thomas Jefferson 

| Jeff 目 己 能 够 岂 配 这 一 行 ， 但 是 因为 不 存在 '(? =Jeffrey) fet 
匹配 的 位 置 ， 整 个 表达 式 束 无 法 匹配 。 现 在 环视 的 好 处 还 看 得 不 是 很 明 
显 ， 但 是 请 个 用 担心 ， 现 在 我 们 只 需要 关心 顺 友 环视 的 原理 一 一 我 们 很 
快 会 迪 到 能 够 元 分 展现 其 价值 的 例子 ，。 

受 此 启发 ， 你 或 许 会 发 现 ' (? =Jeffrey) Jeff F Jeff (? =rey) | 
是 等 价 的 (能 够 友 现 这 一 点 的 读者 很 了 不 起 ) 。 它 们 都 能 匹 
配 “Jeffrey” 这 个 单词 中 的 “Jeff”。 

我 们 还 需要 认识 到 ， 写 们 结合 的 顺序 非 党 重要。 Jeff (C? 
=Jeffrey) 不 会 死 配 上 面 的 任何 一 个 例 于 ， 而 只 会 匹配 后 面 花 跟 
A “Jeffrey” HI “Jeff” - 





RELENE 


"by Jeffrey Friedl" 


SAREE RUTI 





图 2-5: | (? =Jeffrey) Jeff, 的 匹配 
LA- MIR BL, BUI LZ AEA EAN R45 WIP 2A HY 
JERE SS C2 : ...) ”一 样 ， 它 们 使 用 特殊 的 字符 序列 作为 目 己 
的 “ 开 括 亏 ?。 这 样 的 “ 开 括 号 ?序列 有 许多 种 ， 但 它们 都 以 两 个 字 
IF O ”开头 。 问 写 之 后 的 字符 用 来 标志 特殊 的 功能 。 我 们 曾经 看 到 
过 “分 组 但 不 捕获 "的 “C3 : ..) ”顺序 环视 的 <(? =..." DEW 


序 环视 的 * (? <=...) ”结构 ， 下 面 还 会 看 到 更 多 。 

再 来 几 个 顺序 环视 的 例子 

我 们 马上 束 要 在 数字 间 插 入 有 如 和 写 了 了， 不 过 现在 先 多 看 几 个 坏 视 的 例 
子 。 自 先 我 们 要 把 所 有 格 “Jeffs” 瞧 换 为 “Jeff?s”"。 不 使 用 环视 也 能 很 容 吻 
做 到 这 一 点 ， 即 s/Jeffs/Jeff'sg《〈 记 住 ，/g 表示 “全 局 蔡 换 ”， 喉 51) 。 更 
好 的 办 法 是 添加 单词 分 界 从 锚 点 : S\DJeffs\b/Jeff's/g 

我 们 也 可 以 使 用 更 复杂 的 表达 式 ， 例 如 sAb (Jeff) Cs) 
\b/$1$2/g， 但 是 这 样 简单 的 任务 似乎 不 值得 这 么 及 烦 ， 所 以 我 们 暂时 仍 
然 使 用 sAbJeffs\b/Jeff's/g。 现 在 来 看 男 一 个 正则 表达 式 

s/\bJeff(2?=s\b)/Jeff'/g 

两 者 唯一 的 区 别 在 于 ， 最 后 的 's\b 现在 位 于 顺序 环视 结构 。 下 一 页 
的 图 2-6 说 明了 这 个 正则 表达 式 的 匹配 和 情况。 正则 表达 式 变 化 之 后 ， 
replacement 字 符 串 中 的 和 :也 相应 地 被 删 去 了 。 

[Jeff 匹配 之 后 ， 接 下 来 答 试 的 承 是 顺序 环视 。 只 有 当 'sb 在 此 位 
置 能 够 风 配 时 (也 束 古 ‘Jeff? 之 后 崇 跟 一 个 ‘sr 和 一 个 单词 分 界 从 ) 整个 
表达 式 才 能 匹配 成 功 。 但 是 ， 因 为 's\b 只 是 顺序 环视 子 表 达 式 的 一 部 
分 ， 所 以 它 匹 配 的 's' 不 属于 最 终 的 岂 配 文本 。 记 住 ，'Jeff 确定 匹配 文 
本 ， 而 顺序 环视 只 是 “选择 ”一 个 位 置 。 在 此 处 使 用 顺序 环视 的 唯一 好 处 
在 于 ， 它 保证 表达 式 不 会 匹配 任意 的 情况 。 或 者 从 另 一 个 角度 来 说 就 
是 ， 它 容许 我 们 在 只 匹配 [Jeff 之 前 检查 整个 Jeffs 。 


真正 匹配 的 字符 一 
"see Jeffs book" 


| Hak 测试 大 序 环视 时 匹配 的 文本 
[ 






ERER 


图 2-6: \bJeff (2 =s\b) 的 匹配 
为 什么 不 在 最 终 匹 配 的 结束 中 包 侣 顺序 环视 匹配 过 的 文本 呢 ? 通 
前， 这 是 因为 我 们 希望 在 表达 式 的 后 面部 分 ， 或 者 在 稍 后 应 用 正则 表达 
式 时 ， 再 座 检测 这 段 广 本。 过 几 页 ， 妆 我 们 真正 开始 解决 在 数值 中 加 入 


喜气 的 问题 时 ， 束 会 明日 它 的 作用 。 但 是 在 上 面 的 例子 中 ， 使 用 顺序 环 
视 的 原因 在 于 : 我 们 锅 望 检查 整个 'Jeffs ， 因 为 这 是 我 们 希望 加 入 撒 扎 
的 地 方 ， 但 是 如 果 [ 匹 配 的 只 是 ‘Jefff， 束 能 减 小 replacement 字 符 串 的 长 
上 度 。 因 为 's$' 不 再 是 最 终 罗 配 结果 的 一 部 分 ， 也 就 不 再 古 replacement 的 一 
部 分 ， 所 以 我 们 可 以 从 replacement 字 符 串 中 去 挥 它 。 

所 以 ， 尽 管 这 两 种 办 法 所 用 的 正则 表达 式 和 replacement 字 人 符 串 各 不 
相同 ， 它 们 的 结果 却 是 一 样 的 。 现 在 看 起 来 ， 这 些 应 用 正则 表达 陈 的 技 
巧 都 有 些 花 架子 的 味道 ， 但 是 我 这 么 做 是 有 目的 的 ， 请 继续 往 下 看 。 

比较 上 和 面 的 两 个 例子 ， 最 后 的 's AE (main) ”表达 式 中 移 到 了 顺 
序 环 视 部 分 中 。 如 采 我 们 把 开头 的 Jeff 照样 搬 到 刻 序 环视 中 呢 ? ZR 
fe | (2 <=\bJeff) (2 =s\b ) 1 3 它 的 意思 是 ， 找到 这 样 一 个 位 置 ， E 
ARE Jef, Eri. IED Mela A Ss EA o 
所 以 ， 我 们 这 样 答 换 : 

s/(2<=\bJeff)(?=s\b)/'/g 

这 个 表达 式 很 有 意思 ， 它 实际 上 并 没有 匹配 任何 字符 ， 只 是 匹配 了 
我 们 希望 插入 搬 写 的 位 置 。 在 这 种 情况 下 ， 我 们 并 没有 “ 硝 换 ”任何 字 
什 ， 而 只 是 插入 了 一 个 撒 写 。 图 2-7 作 了 说 明 。 在 几 页 以 前 ， 我 们 看 到 
过 这 样 的 符 换 ， 使 用 sy > 在 行 首 加 入 > 






真正 匹配 的 字符 一 、 
"see Jeffs book" 
TETU e MSR 
ERRNO a EE: 


i i 下 r 


a ë i į 


Regex 


图 2-7: ' (3 <=\bJeff) (? =s\b) 的 匹配 
如 果 我 们 把 两 个 环视 结构 调换 位 置 ， 这 个 正则 表达 式 的 功能 会 改变 
吗 ? 也 就 是 说 ，s/(? =s\b) (? <=\bJeff) /Wg 的 结果 如 何 ? 请 翻 到 下 
一 页 查看 党 案 。 
“Jeffs” 克 配 总 结 ” 表 2-1 总 结 了 我 们 见 过 的 把 Jeffs 符 换 为 Jeff:s 的 几 种 
办 法 。 
表 2-1: 解决 “Jeffs” 问 题 的 几 种 办 法 


解决 方案 


s/\bJeffs\b/Jeff's/gq 


s/\b (Jeff) (s) \b/$1'$2/g 


s/\bJeff(?=s\b) /Jeff'’/g 


s/(?<=\bdeff) (2?=s\b)/'/g 


s/(?=s\b) (?<=\bJdeff)/'/g 


评 th 


最 简单 ， 最 直接 ， 效 率 高 ;解决 此 类 问题 最 容易 想 
到 的 办 法 ， 未 使 用 环视 ， 正 则 表达 式 “ 占 用 ”整个 
‘Jeffs’, 

Kewl ARER, RAR, EIZA t AY 
- “Jeffs’, 

并 没有 占用 s ， 除 了 展示 顺序 环视 之 外 ， 没 什么 
实用 价值 。 

并 没有 “占用 任何 文本 ， 同 时 使 用 顺序 环视 和 北 
序 环 视 匹配 需要 的 位 置 ， 即 撒 号 插入 的 位 置 。 非 党 
过 于 讲解 环视 。 

与 上 一 个 表达 式 完全 相同 ， 只 是 颠倒 了 两 个 环视 结 
构 。 因 为 它 并 没有 占用 任何 字符 ， 所 以 变换 顺序 并 
没有 影响 。 


al SE PAE SZ, SHE PK FE RA [A 
A. WR A BA TRAI AN KAAS Jeffs”, TES PR Ja VIA REE OK 
的 大 小 写 ， 使 用 /i 能 实现 这 个 目标 吗 ? 


测验 答案 


T63 TMS 

s/(?=s\b) (?<=\bJeff)/'/g 的 结果 是 什么 ? 

在 本 例 中 ，(?=s\b)j 和 (?<=\bJeff)) 的 先后 顺序 是 无 关 紧 要 的 。 无 论 是 “ 先 检查 上 
边 ， 再 检查 右边 ”还 是 相反 ， 关 键 是 ， 在 同一 个 位 置 两 边 的 检测 必须 都 能 成 功 ， 整 个 
匹配 才 算 成 功 , 例如 , AFi e ‘Thoma s‘Jeff erson 中 ，(?=s\b)j 和 (?<=\bJeff) | 


都 能 匹配 (在 标记 的 两 个 位 置 ), 但 是 这 两 个 位 置 并 不 重合 ， 所 以 这 两 个 环视 的 结合 体 
不 能 成 功 匹 配 。 

两 者 的 结合 (combanation of the two) 虽然 有 些 模糊 ， 但 用 来 描述 这 个 问题 并 没有 
问题 ， 因 为 在 此 处 它 的 意义 很 明显 。 不 过 ， 有 时 候 ， 正 则 引 学 应 用 表达 式 的 万 式 可 能 
并 不 这 么 明显 。 因 为 引擎 的 工作 原理 对 正则 表达 式 的 实际 意义 有 直接 的 影响 ， 详 细 讲 
解 见 第 4 章 。 





提示 : 人 至少 有 两 个 表达 式 无 法 做 到 这 一 点 。w 请 思考 这 个 问题 ， 管 
RIL PH. 

| BES BY... 

你 可 能 已 经 意识 到 了 “Jeffs” 的 例子 和 插入 如 号 的 例子 之 间 存 在 人 东 种 
-a RE nae aa 


我 们 已 经 知道 我 们 希望 插入 去 号 的 位 置 必须 满足 “左边 有 数字 ， 厂 
边 数 字 的 个 数 正好 是 3 的 倍数 "。 第 二 个 要 求 用 逆序 环视 很 容易 解决 ， 左 


边 只 要 有 一 位 数字 就 能 够 满足 “左边 有 数字 ”的 要 求 ， 这 束 是 :〈? < 
ad) ， 


现在 来 看 “右边 数字 的 个 数 正好 是 3 的 倍数 "。3 位 数字 当然 可 以 表 
示 为 \d\d\d ， 我 们 可 以 用 '〔...) + 来 表示 〈3 的 ) “若干 倍 ”， 再 添加 一 
S'S, 来 确保 这 些 数字 后 面 不 存在 其 他 字符 《保证 “正好 ”) o IE 
Gddd) +$ 匹配 从 字符 串 末 尾 问 前 数 的 3x 位 数字 ， 但 是 加 入 | (3? 
=...) 的 环视 结构 之 后 ， 它 就 能 匹配 “右边 数字 的 个 数 正好 是 3 的 倍数 


的 位 置 >， 例 如 123.436789 中 的 标记 位 置 。 实 际 上 并 不 是 所 有 这 些 


位 置 都 符合 要 求 一 一 我 们 不 希望 在 第 一 个 数字 之 前 加 入 有 吉 号 一 一 所 以 我 
们 添加 C? <=\d) 来 限定 匹配 的 位 置 。 
代码 段 如 下 : 
Spop =~ s/(?<=\d) (?=(\d\d\d)+$)/,/g; 
print “The US population is Spop\n”; 

确实 输出 了 我 们 期 望 的 “The US population is 298, 444, 215”. 4S 
Y, AATRE. ddd 两 边 的 括号 是 捕获 型 括号 。 但 是 在 这 里 ， 我 
们 只 用 它 来 分 组 ， 把 加 号 作用 于 3 位 数字 ， 上 所 以 不 需要 把 它们 捕获 的 文 
本 保存 到 $1 中 。 

我 可 以 使 用 第 45 页 补充 内 容 介 绍 的 非 捕获 型 插 写 : l (? : 
..….) ， 得 到 ' C2 <=\d) (? = (2 = \d\d\d) +$) 。 这 样 做 的 好 处 在 
于 ， 见 到 这 个 正则 表达 式 的 人 不 会 担心 与 捕获 型 括号 关联 的 $1 是 否 会 被 
用 到 ;而且 它 的 效率 更 高 ， 因 为 引擎 不 需要 记忆 捕获 的 文本 。 另 一 方 
面 ， 即 使 是 | C.D BARE ATE, BAAD OC? .……) 了， 所 以 我 
在 这 里 选择 更 清晰 的 表达 方式 。 构 建 正 则 表达 式 时 ， 经 第 需要 权衡 这 两 
SAA. MRSA, FOR ETE PA ETC? : 

...) ， 但 是 在 讲解 其 他 知识 时 选择 更 清晰 的 表达 方式 〈 也 是 本 书 中 的 
遇见 情况 )。 

单词 分 界 符 和 人 否定 环视 

现在 假设 ， 我 们 希望 把 这 个 插入 召 号 的 正则 表达 式 应 用 到 很 长 的 字 
从 串 中 ， 例 如 : 


Stext = “The population of 298444215 is growing”; 


$text =~ s/(?<=\d) (?=(\d\d\d) +$) /,/g; 

print “Stexb\n" 7 

很 显然 程序 没有 结果 ， 因 为 '$ 要 求 字 符 串 以 3 的 倍数 位 数字 结尾 。 
我 们 不 能 只 去 挥 这 里 的 1$ ， 因 为 这 样 会 从 左边 第 一 位 数字 之 后 ， 右 边 
第 三 位 数字 之 前 的 每 一 个 位 置 插入 如 己 结果 是 “...of 2, 9, 8, 4, 
4, 4, DUS 

Ay REVA ERZ HAA ERF, (EBT DA Bete) op SEA Nb KE 
Hs 。 尽 管 我 们 处 理 的 只 是 数字 ，Perl 的 “单词 ?概念 也 能 够 解决 这 个 问 
题 。 就 像 \w (49) 一样 ，Perl 和 其 他 语言 都 把 数字 、 字 母 和 下 画 线 
当 作 单词 的 一 部 分 。 结 果 ， 单 词 分 界 符 的 意思 就 是 ， 在 此 位 置 的 一 侧 是 





单词 《例如 数字 ) ， 另 一 侧 不 是 《例如 行 的 末尾， 或 者 数字 后 面 的 守 
) 。 


这 个 “一 侧 如 此 这 般 ， 男 一 侧 如 此 那 谣 * 听 起 来 很 是 熟 ， 对 吗 ? 因为 
这 正 是 我 们 在 “Jeffs” 例 子 中 所 做 的 。 区 列 之 一 在 于 ， 有 一 侧 必 须 使 用 合 
定 的 匹配 。 这 样 看 来 ， 迄 今 为 止 我 们 用 到 的 顺序 环视 和 逆序 环视 应 该 家 
称 作 肯定 顺序 环视 (positive lookahead) 和 上 表 定 逆序 环视 (positive 
lookbehind) 。 因 为 它们 成 功 的 条 件 是 子 表 达 陈 在 这 些 位 置 能 够 匹配 。 
表 2-2 告 诉 我 们 ， 正 则 表 这 式 还 提供 了 相对 应 的 个 定 顺 序 环视 和 人 否定 鸳 
厅 坏 视 。 从 名 字 束 能 看 出 ， 它 们 成 功 的 条 件 是 子 表 达 式 无 法 匹配 。 


测验 党 


第 64 页 的 测验 答案 

在 使 用 /并 时 ， 哪 些 办 法 会 保留 原来 文本 的 大 小 写 ? 

为 了 保留 大 小 写 ， 要 么 仅仅 替换 被 占用 的 字符 【而 不 是 任何 情况 下 部 插入 Jeff's )， 
要 么 不 占用 任何 字符 。 表 2-] 中 的 第 二 个 表达 式 采 取 了 第 一 种 思路 ， 匹 配 右 用 的 字符 ， 
用 $1 和 $2 把 它们 替换 回来 。 后 两 种 解法 选择 了 “不 占用 任何 字符 ”的 思路 .因为 包 们 
不 占用 任何 字符 ， 所 以 不 需要 保留 任何 文本 。 

第 一 和 第 三 种 解法 使 用 硬 编 码 的 replacement 字符 囊 。 如 果 使 用 /i， 他 们 不 会 保留 原来 
的 大 小 写 信息 。 它 们 分 别 把 JEFFS 错误 地 替换 为 Jeff's fe Jeff's, 





表 2-2: 四 种 类 型 的 环视 
类 型 TEM FIAT 匹配 成 功 的 条 件 .… 
A RIE 子 表 达 式 能 够 匹配 左 侧 文 本 
ERE 子 表 达 式 不 能 匹配 左 侧 文 本 
FMP AL = 子 表 达 式 能 够 匹配 右 侧 文本 
否 足 顺序 环视 (2 Fan) 子 表 达 式 不 能 匹配 右 侧 文本 
所 以 ， 如 果 单词 分 界 符 的 意思 是 ;一 侧 是 \w 而 另 一 侧 不 是 \w ， 
我 们 就 能 用 ! (? 二 ! Ww) (2 =\w) 来 表示 单词 起 始 分 界 符 ， 用 ! (? 
<=\w) 〈? lw) ,表示 单词 结束 分 界 符 。 把 两 着 结合 起 来 ， | CC? 
<!\w) (? =\w) | (? <=\w) (? ! \w) ) W&F ^b 。 在 实践 





中 ， 如 来 语言 本 里 文 持 \b 〈b 更 直接 ， 效 率 也 更 局 ) ， 这 样 做 有 点 多 此 
一 举 ， 但 十 可 能 的 确 有 地 方 需要 用 到 这 两 个 单独 的 多 选 分 文思 
134) 。 

对 我 们 的 运气 插入 问题 来 说 ， 我 们 真正 需要 的 是 C2 ! \d) ,来 标 
记 3 位 数字 的 起 始 计数 位 置 。 我 们 用 它 来 取代 nb 或 者 $$， 得到: 


vtext =~ s/(?<=\d) (P=(\d\d\d) PETI Ad) +7 or 


这 个 表达 式 在 处 理 类 似 “...tone of 12345Hz” 的 文本 时 效果 很 好 ; 不 
幸 的 是 ， 它 同样 会 匹配 “...the 1970s...” 中 的 年 份 。 实 际 上 ， 我 们 根本 不 
希望 这 里 的 正则 表达 式 能 够 匹配 “...in1970...”。 所 以 ， 我 们 必须 知道 期 
望 用 正则 表达 式 处 理 的 文本 ， 以 及 开发 的 程序 适合 解决 什么 样 的 问题 
(如 果 数 据 包 含 年 份 信息 ， 这 个 正则 表达 式 可 能 就 不 适合 ) 。 

在 关于 单词 分 界 符 和 不 希望 匹配 的 字符 的 讨论 中 ， 我 们 使 用 了 人 否定 
顺序 环视 (? ! \w) 或 1 C2 LAD ,。 你 可 能 还 记得 第 49 页 出 现 的 
表示 “ 非 数字 ”的 字符 \D ， 认 为 它 可 以 取代 '(? ! \d) 。 这 并 不 正 
确 。 记 住 ，\D 的 意思 是 , “ 某 个 不 是 数字 的 字符 ” “ 某 个 字符 ?是 必须 
的 ， 只 是 它 不 能 为 数字 。 如 果 在 搜索 的 文本 中 ， 数 字 之 后 疫 有 字符 ， 

\D 是 无 法 匹配 的 (在 第 ”12 页 的 补充 内 容 中 我 们 见 到 过 类 似 的 情 
况 ) 。 

不 通过 逆序 环视 添加 过 号 

逆序 环视 和 顺序 环视 一 样 ， 所 获 的 文 持 十 分 有 限 〈 使 用 也 不 广 
YZ) 。 顺 序 环视 比 逆 序 环 视 早 出 现 几 和 年， 尽管 Perl 现在 两 者 都 文 择 ， 许 
多 其 他 语言 却 不 是 这 样 。 所 以 ， 想 一 想 不 用 道 序 环视 来 解决 添加 逗号 的 
问题 可 能 更 有 意义 。 来 看 下 面 的 表达 式 : 

Stext =~ s/ (\d) (?=(\d\d\d)+(?t\d)/ $1,/g; 


EAD Z AU AIA SUN IE, FAK Ad BEAR AY EAP Le 
成 了 捕获 型 括 写 ，replacement 字 从 串 则 在 逗号 之 前 加 入 了 相应 的 $1。 

如 果 我 们 连 顺序 环视 也 不 用 呢 ? 我们 可 以 用 \b 取代 (? ! \d) ，， 
但 这 个 消 际 迎 序 坏 视 的 技巧 是 侍 对 和 猎 下 的 顺序 环视 有 效 呢 ? 也 束 是 说 ， 
下 面 的 办 法 可 行 吗 ? 

$text=~s/(\d)((\d\d\d)+\b)/$1,$2/g; 

w 请 翻 到 下 页 得 看 答案 。 


Text-to-HTML 转换 


Text-to-HTML Conversion 

现在 我 们 写 一 个 把 Text( 纯 文本 ) 转换 为 HTML AXK) 的 小 工 
其， 如 采 要 处 理 所 有 的 情况 ， 程 序 将 非 第 难 写 ， 所 以 现在 我 们 只 与 一 个 
用 于 教学 的 小 工具 。 

在 目前 我 们 看 过 的 所 有 例子 中 ， 作 为 正则 表达 式 应 用 对 象 的 变量 都 
只 包含 一 行文 本 。 对 这 个 例子 来 说 ， 把 我 们 需要 转换 的 所 有 文本 放 在 同 
一 个 字符 串 中 比较 方便 。 在 Perl 中 ， 我 们 可 以 很 容易 地 这 样 做 : 


undef $/; # HEA” file-slurp” (Htp) 模式 
STERG = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 


MER 


067 页 问题 的 答案 

$text =~ s/(\d) ((\d\d\d)+\b)/$1,$2/g; 能 够 在 数学 中 添加 过 号 吗 ? 

结果 并 非 我 们 的 期 望 。 得 到 的 是 类 似 “281,421906” 的 字符 串 。 这 是 因为 (\d\d\d)++ 
匹配 的 数字 属于 最 终 匹 配 文本 ， 所 以 不 能 作为 “未 匹配 的 ”部 分 ， 供 /9 的 下 一 次 匹配 
迷 代 使 用 。 

一 次 选 代 完成 时 ， 下 一 次 的 选 代 会 从 上 一 次 匹配 的 终点 开始 尝试， 我 们 希望 的 是 ， 在 
质 入 各 号 以 后 ， 还 能 够 继续 检查 这 个 数值 ， 以 决定 是 否 需 要 再 桂 入 过 号 。 但是， 在 这 


个 例子 中 ， 重 新 开始 的 起 点 是 整个 数值 的 末尾 。 使 用 顺序 环视 的 意义 在 于 ， 检 查 某 个 
位 置 ， 但 检查 时 匹配 的 字符 并 不 算 在 (最终)“ 匹 配 的 字符 串 ” 内 ， 


实际 上 ， 这 个 表达 式 仍然 可 以 用 米 解决 这 个 问题 ， 但 正则 表达 式 必须 由 笨 主 语言 反复 
调用 ， 例 如 通过 一 个 while 循环 ， 每 次 检查 的 部 是 上 次 修改 后 的 字符 串 。 每 次 替换 操 
作 郁 会 添加 一 个 喜 号 (对 目标 字符 串 中 的 每 个 数值 部 是 如 此 ， 因 为 /g 的 存在 ) ， 下 面 
是 一 个 例子 ， 
while ( $text =~ s/(\d) ((\d\d\d)+\b)/$1,$2/g ) 1 
E 循环 内 不 用 进行 任何 操作 一 一 我 们 布 望 的 是 重复 这 个 循环 ， 直 到 匹配 失败 
| 





如 果 我 们 的 样本 文件 包含 3 个 短 行 : 


This 1s a sample file. 
It has three lines. 
That's all 


AP ar $text) A Awe: 

This 1s a sample file. It has three lines. Ties all 

在 东 些 平台 上 ， 也 可 能 是 : 

This is a sample file.[& NM It has three lines. 图 加 That's a11 

这 是 因为 大 多 数 系统 采用 换行 从 作为 一 行 的 终结 从 ， 而 某 些 系 统 

(主要 是 Windows) 使 用 回 车 /换行 的 结合 体 。 我 们 会 确 你 这 个 人 简单 的 
工具 能 应 付 这 两 种 情况 。 

处 理 特 殊 字符 

首先 我 们 需要 确保 原始 文本 中 的 "人 人、 <: 和 > :字符 “不 会 出 错 ” 
把 它们 转换 为 对 应 的 HIML 编 乌 ， 分 别 和 是"&amp”、 ‘&lt’ Pl‘&gt’?. E 
HTML 中 这 些 字 符 有 特殊 的 含义 ， 编 码 不 正确 可 能 会 导致 显示 错误 。 我 
称 这 种 简单 的 转换 为 “为 HTIML 而 加 工 〈cooking the text for HTML) ”, 
它 的 确 非 党 简单 : 

Stext =~ s/&/&amp;/g; # 保证 基本 的 HTML... 
$text =~ s/</&lt;/g; # .. FAH & <, and >.. 
$text =~ s/>/&gt;/g; # .. 转换 后 不 出 错 

tale, FOE S/R TAY Fete BR COUR AS 
Hg, WER SARA NPAE So ACFE IN, 
KAX = A replacement HRA FT. 

分 隔 段落 

接 下 来 我 们 用 HTML tag Pana ee <p> Kind eye. WARE 
的 简单 办 法 束 是 把 空 行 作为 段 洛 之 则 的 分 隔 。 搜 索 空 行 的 办 法 有 很 多 ， 
最 容易 想到 的 是 : 

$text=~s/^$/<p>/g; 

它 可 以 匹配 “ 行 末 尾 么 随行 开头 的 位 置 ?。 确 实 ， 我 们 已 经 在 第 10 页 
看 人 到， 在 egrep 之 类 的 工具 中 这 样 行 得 通 ， 因 为 其 中 被 检索 的 文本 退 沼 
Rega se ENT OCA. Æ Perl 中 也 同样 有 效 ， 对 于 之 前 看 到 过 的 E- 
mail 的 例子 ， 我 们 知道 每 一 个 字符 串 只 包含 一 个 好 辑 行 。 

但 是 ， 我 已 经 在 第 55 页 的 脚注 中 提 到 过 ， 必 和 '$ 通常 区 配 的 不 是 
逻辑 行 的 开头 和 结尾 ， 而 是 整个 的 字符 串 的 开头 和 结束 位 置 GE 5) 。 
所 以 ， 既 然 目标 字符 串 中 有 多 个 馆 辑 行 ， 殉 需要 采取 不 同 的 办 法 。 


邓 好 ， 大 多 数 文 持 正 则 表达 去 的 语言 提供 了 一 个 简单 的 办 法 ， 
即 “ 增 强 的 行销 点 ”(Cenhanced line anchor) 匹配 模式 ， 在 这 种 模式 下 ， 
‘A MS 会 从 字符 串 模 陈 切 换 到 本 例 中 需要 的 馆 辑 行 模 式 。 在 Perl 中 ， 使 
用 /修饰 符 来 选择 此 模式 : 

$text=~s/A$/<p >/mg; 

请 注意 这 里 同时 使 用 了 /mm 和/g〔 你 可 以 以 任何 顺序 排列 需要 使 用 的 
多 个 修饰 符 ) 。 在 下 一 重 ， 我 们 会 看 到 其 他 语言 是 如 何 处 理 修 饰 符 的 。 

所 以 ， Ho BRAT M Stext i ‘...chapter. H Thus..… 开 始 ， 会 得 到 期 
H He.. chapter.“ <p>" Thus...’. 

MT, MRE TT Pe 2 A Be I 8 AE, EAT 


[A 大 

Aili. WT MAE, RAE SS, mga COEDS yep 
配 某 些 系 统 在 换行 符 之 前 的 空格 符 、 制 表 

符 或 者 回 车 符 。 这 两 个 表达 式 与 A 是 完全 不 同 的 ， 因 为 它们 确实 
匹配 了 一 些 字 符 ， 而 '$ 只 匹配 位 置 。 不 过 ， 因 为 在 本 例 中 我 们 不 需要 
这 些 空 格 符 、 制 表 符 和 回 车 符 ， 匹 配 〈 然 后 用 分 段 tag 来 蔡 换 ) 这 些 字 
符 不 会 带 来 任何 问题 。 

如 果 你 还 记得 第 47 页 的 \s ， 你 可 能 会 想到 “\Ys5$; ， 就 像 我 们 在 第 
55 页 E-mail 的 例子 中 所 用 的 那样 。 如 果 用 Ns 取代 [Ntr] ， 因 为 \s 能 够 
风 配 换行 秤 ， 所 以 整个 表达 式 的 意义 就 不 再 是 “寻找 空 行 及 只 包括 空白 
字符 的 行 ”， 而 是 “寻找 连续 、 空 行 和 只 包括 空白 字符 的 行 的 结合 ”。 也 
就 是 说 ， 如 果 我 们 找到 多 个 连续 的 这 样 的 文本 行 ， 一 个 IAAsx$ 就 能 够 
匹配 它们 。 这 样 的 好 处 在 于 ， 只 会 留 下 一 个 <p 盖 ， 而 不 是 像 以 前 那样 
有 多 少 空 行 就 留 下 多 少 <p>。 所 以 ， 如 果 $textf 有 这 样 的 字符 串 : 

‘with. N Fel i Therefore: 
我 们 用 : 
$text =~ s/*[ \t\r]*$/<p>/mg; 
结果 就 是 
with .上 <p> <p> <p> Therefore::: 
不 过 ， 如 果 我 们 用 : 


$text =~ s/*\s*$/<p>/mg; 


结果 要 更 好 看 一 些 : 


‘with. <p> Therefore::: 


MA, FERRARA AEA, POISE A\s*$ 。 

将 E-mail 地 址 转换 为 超 链 接 形 式 

Text-to-HTML 转换 的 下 一 步 古 识 列 出 E-mail 地 址 ， 然 后 把 它们 转 
换 为 “mailto” 链 接 。 例 如 ，jfriedl@oreilly.com 会 被 转换 为 二 
a'href=“mailto: jfriedl@oreilly.com” >jfriedl@oreilly.com </a > - 

用 正则 表达 式 来 巨 配 或 者 验证 E-mail 地 址 是 常见 的 情况 。E-mail 地 
址 的 标准 规 施 异 沼 繁 沫 ， 所 以 很 难 做 到 百分之百 的 准确 ， 但 是 一 些 人 简单 
的 正则 表达 式 束 可 以 应 付 过 到 的 大 多 数 E-mail 地 址 。E-mail 地 址 的 基本 
形式 是 username@hostname。 在 思考 该 用 怎样 的 表达 式 来 匹配 各 个 部 分 
之 前 ， 我 们 先 看 看 这 个 正则 表达 式 的 具体 应 用 环境 : 


$text =~ s/\b (username regex\@hostname regex) \b/<a href=“mailto:$1”>$1<\/a>/g; 


需要 注意 的 一 点 是 其 中 两 个 用 下 男 线 标注 的 反 斜 线 ， 第 一 个 在 正则 
表达 式 (^\@’) 中 ， 另 一 个 在 replacement 字 符 串 的 末尾 。 使 用 这 两 个 反 
矢 线 的 理由 各 不 相同 。 我 会 在 稍 后 讨论 \@ 02°77) ， 现 在 我 们 只 需要 知 
道 ，Perl 规 定 作为 文本 字符 的 @ 符 扎 必 须 转 义 。 

先 介 绍 replacement 字 符 串 中 在 ‘之 前 的 肥 和 锋线 比较 好 。 我 们 已 经 看 
Fl], Perl 41 ER 4 HRW ZEA TE rh ce s/regex/replacement/modifier, HR} 
KIS Wo MA, WOR BA iis BETES PB EHR R. LZ 18 A Fe 
X, FRM RARE BIR AIA aT ET. YEATES RIN RS. thse ie, 
QR Bel 4a replacement 4AP FEH <A>, wba SlE<Va>. 

这 么 做 当然 可 以 ， 但 不 太 好 看 ， 所 以 Pen 容许 用 户 目 定 义 分 隔 符 。 
例如 s! regex! string! modifier， 或 者 s{fregex}{string}modifier。 无 论 采 
用 哪 种 形式 ， 因 为 replacement 字 和 从 串 中 风 和 斜 线 不 再 与 分 阳 从 有 冲突 ， 也 
束 不 需要 转 义 。 第 二 种 形式 的 分 隅 和 从 非常 明显 ， 所 以 从 现在 开始 我 们 采 
用 这 种 形式 。 

回 到 程序 中 来 ， 请 注意 整个 地 址 是 处 于 bb 之 间 的 。 添 加 这 些 
FA te] op FR Be oe ee Se AS cS VACA Toe, Ban 


EEE CBP 尽管 遭遇 这 种 无 意义 的 字符 串 的 几率 
很 小 ， 但 使 用 单词 分 界 符 来 避免 此 类 匹配 一 点 也 不 厂 类 ， 所 以 我 会 这 么 
做 。 请 注意 我 是 如 何 用 括号 包围 整个 E-mail 地 址 的 ， 这 样 我 们 殉 能 使 
用 replacement FIF ‘<a-href=“mailto: $1”>$1</a>’. 

Vl ic FAP 44 A EL 

现在 我 们 来 看 匹配 邮件 地 址 所 需要 的 用 户 名 和 主机 名 的 正则 表达 


式 。 主 机 名 ， 例 如 regex.info 或 者 www.oreilly.com， 它 们 由 点 写 分 隔 ， 
以 com”、“'“edu、'info”、“uk: 或 者 其 他 事先 规定 的 字符 序列 结尾 。 匹 配 
E-mail 地 址 的 最 简单 的 办 法 是 \w+MGNw+ Awt) +, FA \w+ 来 匹配 用 
户 名 ， 以 及 主机 名 的 各 个 部 分 。 不 过 ， 实 际 应 用 起 来 ， 我 们 需要 考虑 得 
更 周到 一 些 。 用 户 名 可 以 包含 点 号 和 连 字 和 从 (虽然 用 户 名 不 会 以 这 两 种 
字符 开头 ) 。 所 以 ， 我 们 不 应 该 使 用 \w+ ， 而 应 该 用 \w[-\wj** o X 
瓯 保证 用 户 名 以 NAw 开头 ， 后 面 的 部 分 可 以 包 插 点 号 和 连 字 人 符 。 (请 注 
意 ， 我 们 在 字符 组 中 把 连 字 和 从 排 在 第 一 位 ， 这 样 束 确 你 它们 被 作为 连 字 
伯 ， 而 不 是 用 来 表示 汇 围 。 对 许多 流派 来 说 ，.-\w 表 示 的 围 肯定 古 错 
误 的 ， 它 会 产生 一 个 随机 的 字母 、 数 字 和 标点 符号 的 集合 ， 上 共 体 取决 于 
程序 和 计算 机 所 用 的 字符 编码 。Perl 能 够 正确 处 理 .\w， 但 是 使 用 连 字 符 
时 多 加 小 心 是 个 好 习惯 。) 

主机 名 的 匹配 要 复杂 一 些 ， 因 为 点 号 只 能 作 分 隔 符 ， 也 吏 是 说 两 个 
点 号 之 轩 必 须 有 其 他 字符 。 所 以 在 前 面 那个 简单 的 正则 表达 式 中 ， 主 机 
名 部 分 用 \w+ (Ww+) + 而 不 是 '[\w.]+, 。 后 者 会 匹配 5.x.…"。 但 是 ， 即 


使 是 前 者 ， 也 能 够 匹配 “2 95“esve- OG ， 所 以 我 们 需要 更 细心 一 
些 。 


一 个 办 法 是 给 出 末尾 部 分 的 可 能 序列 ， 跟 在 \w+ Awt) *\, 
(comledujinfo) 之 后 《实际 上 ， 多 选 分 文 应 该 是 
comledulgovlintlmillnetlorg|bizlinfolnamelmuseumlcooplaerol[a-z][a-z]， 不 过 
为 了 商 渍 起 抑 ， 我 在 这 里 只 列 出 几 项 ) 。 这 梓 融 能 容许 开头 的 \w+, 部 
分 ， 然 后 征 可 能 出 现 的 \Aw+, 部 分 ， 最 后 才 十 我 们 指定 的 可 能 结尾 。 

实际 上 w 也 不 是 很 合适 。 Nw 能 够 匹配 ASCII 字 母 和 数字 ， 这 没 
有 问题 ， 但 有 些 系 统 中 \w 能 够 岂 配 非 ASCII 字 母 ， 例 如 a、c、S、 契 。 
在 大 多 数 流 铂 中 ， 下 男 线 也 是 可 以 的 。 但 这 些 字 人 符 都 不 应 该 出 现在 主机 
名 中 。 所 以 ， 我 们 或 许 应 该 用 '[a-zA-Z0-9] ， 或 者 是 '[a-z0-9] 加 上 /i 1B 
饰 符 《进行 不 区 分 大 小 写 的 匹配 ) 。 主 机 名 可 能 包括 连 字 符 ， 所 以 我 们 
用 [[-a-z0-9], 《再 次 注意 ， 连 字符 应 该 放 在 第 一 位 ) 。 于 征 我 们 得 到 用 
来 匹配 主机 名 的 「[-a-z0-9]+ (\.[-a-z0-9]+) *\. Ccomledulinfo) 。 

无 论 使 用 什么 正则 表达 式 ， 记 住 它们 应 用 的 情境 都 是 很 重要 的 。 T- 
a-z0-9]+ (\.[-a-z0-9]+) *\. (comledulinfo) ”这 个 正则 表达 式 本 映 ， 可 
以 匹配 sun C: (ean eee at Sa 但 是 把 它 置 入 程序 
运行 的 环境 中 ， 我 们 残 能 确认 ， 它 会 匹配 我 们 期 望 的 文本 ， 而 忽略 不 期 
望 上 的 内 容 。 实 际 上 ， 我 会 把 它 放 入 之 前 所 到 的 。 





$text=~s{\b (username regex\@hostname regex) \b}{<a 
href=“mailto: $1”>$1</a>}gi; QXEH Ss{...}{...}orbae, LW 
RA) ， 但 这 样 就 必须 折 行 。 当 然 ，Perl 不 关心 这 个 问题 ， 也 不 关心 表达 
式 古 人 奋 闫 观 ， 但 我 天 心 。 所 以 我 要 介绍 /x 修饰 从 ， 它 容许 我 们 重新 编排 
这 个 表达 式 : 
Stext =~ st 
\b 
# 把 邮件 地 址 存 入 变量 $1 .… 
( 
username regex 
NG 
hostname regex 


) 
\b 
} {<a href=“mailto:$1”’>$1</a>}gix; 


啊 哈 ， 现 在 看 起 来 大 不 一 样 了 。 语 句 末尾 出 现 了 和 六 《在 /g& 和 /Ai 之 
Ja) ， 它 对 这 个 正则 表达 陈 做 了 两 件 向 单 但 有 意义 的 事情 。 首 先 ， 大 多 
数 衬 日 字符 会 被 忽略 ， 用 户 能 够 以 “宽松 排列 〈free-format) ”编排 这 个 
KIAN. ERIRE. KR, ER EMA HAARE. 

要 指出 的 是 ， 加 上 /x 之 后 ， 表 达 式 中 的 大 部 分 空格 从 变 为 “ 忽 上 略 目 
J” JTF (“ignore me”metacharacter) ， 而 并 的 意思 是 “忽略 该 字符 及 
其 之 后 第 一 个 换行 符 之 前 的 所 有 字符 ”(〈 权 111) 。 它 们 不 是 作为 字符 组 
内 部 的 元 字符 (也 束 是 说 ， 即 便 使 用 了 /x， 这 些 字 和 从 组 也 不 是 “ 随 童 编 
排 ?的 ) 来 对 竺 的 ， 而 且 ， 同 其 他 元 字符 一 样 ， 如 果 硕 望 把 它们 作为 普 
通 字符 来 处 理 ， 也 可 以 对 它们 加 以 转 义 。 当 然 ，\s Rhee nee DLAC ae A 
字符 ， 例 如 my/<avs+href=... 之 /X。 

请 注意 ， 人 只 能 应 用 于 正则 表达 式 本 喘 ， 而 不 是 replacement 字 符 
串 。 同 样 ， 即 使 我 们 现在 使 用 的 是 s{.…}..} 的 格式 ， 修 饰 符 接 在 了 最 后 
的 修之 后 《例如 和 x?) ， 但 是 在 文中 我 们 仍然 使 用 ”yx 代表 “修饰 符 X"。 

综合 起 来 

现在 ， 我 们 可 以 把 用 户 名 、 主 机 名 的 部 分 ， 以 及 之 前 的 开 友 成 果 结 
合 起 来 ， 得 到 相对 完整 的 程序 : 


undef $/; EEA “LHÈR” 模式 


Stext =y # 读 入 命令 行 中 指定 的 第 一 个 文件 名 

$text =~ s/&/&amp;/g; # 把 基本 的 HIML .… 
Stext =~ s/</&lt;/gq; E « ae & < Fe > x 
$text =~ s/>/éigt;/g; # . #47 HTML 转 义 
$text =~ s/*\s*S/<p>/mg; # 划分 段落 


# 转换 为 链接 形式 .… 
Stext =~ st 
\b 
# 把 地 址 保存 到 $1 ... 
( 


\w[-.\w] * # username 
\@ 
[-a-z0-9]+(\. [-a-z0-9]+)*\.(com|edu|info) # hostname 
) 
\b 


}{<a href=“mailto:$1”>$1</a>}gix; 


print $text; # m6, ZAR HIMLXA 

所 有 的 正则 表 过 去 都 应 用 于 同一 个 包 舍 多 行文 本 的 字符 串 ， 需 要 注 
意 的 是 ， 只 有 用 于 划分 段落 的 正则 和 达 云 才 使 用 修饰 符 ， 因 为 只 有 那 
个 正则 表达 式 用 到 了 个 A'S 。 对 其 他 正则 表达 式 使 用 /m 并 不 会 产生 影 
Mn] CREO BREA ARR) 。 

把 HTTP URL 转 换 为 链接 形式 

最 后 ， 我 们 需要 识别 HTTP URL， 将 它 变 为 链接 形式 。 也 就 是 说 
把 “http: /www.yahoo.com2” 转 变 为 二 a'href=http: //www.yahoo.com/> 
http: //www.yahoo.com/</a> 。 

HTTP URL 的 基本 形式 是 http: /hostname/path， 其 中 的 /path 部 分 是 
ER FERNER P ERIEN: 


Stext =~ st 
\b 
# +f URL 保存 至 $1 .… 
( 
http:// hostname 
( 
/ path 


)? 
) 
}{<a href=‘“$1">$1</a>}gix; 


主机 部 分 的 匹配 可 以 使 用 在 E-mail 例子 中 用 过 的 子 表达 式 。 URL 的 
path 部 分 可 以 包括 各 种 字符 ， 在 前 一 半 中 我 们 使 用 的 十 [-a-z0-9_: 
@&? =+，.! /一 六 % 轴 大，( 呈 25) ， 它 包括 了 除 空白 字符 、 控 制 字符 
BI<> ©) {之 外 的 大 多 数 ASCII 字 符 。 

在 使 用 Perl 解决 这 个 问题 之 前 ， 我 们 必须 对 @ 和 $ 进 行 转 义 。 同 
样 ， 我 会 在 稍 后 讲解 原因 (577) 。 现 在 ， 我 们 来 看 hostname 和 path 部 
分 : 

Stext =~ s{ 
\b 
# HURL 保存 至 $1 . 
http:// [-a-z0-9]+(\. [-a-z0-9]+)*\. (com|edu|info) \b # hostname 
( 
/ [-a-z0-9 :\@a?=+,.!/~*'S\S]* # path 不 一 足 会 出 现 


) : 
}{<a href=“$1">$1</a>}gix; 

你 可 能 注意 了 ， 在 path 之 后 没有 Ab ， 因 为 URL 之 后 通常 都 是 标点 
符号 ， 例 如 本 书 在 O'Reily 的 UREL 是 : 

http://www.oreilly.com/catalog/regex3/ 

如 果 末 尾 有 \b ， 就 不 能 匹配 。 

也 了 豆 是 次 ， 在 实际 中 ， 我 们 需要 对 和 示 URL 结 束 的 学 符 做 一 些 人 为 
的 规定 。 比 如 下 面 的 文本 : 


Read “odd” news at http://dailynews.yahoo.com/h/od, and 
maybe some tech stuff at hhttp://www.slashdot.com! 


FUL EE MU eI SURE WS VEC PTE EE CAS S, SAR FES A a PAS 





应 该 作为 URL 的 一 部 分 。 在 匹配 英文 文本 中 的 URL 时 ， 末 尾 的 
[，? l] 是 不 应 该 作为 URL 的 一 部 分 的 《这 并 不 是 什么 规定 ， 而 是 我 
的 经 验 ， 而 且 大 多 数 时 候 都 有 效 ) 。 这 很 简单 ， 只 需要 在 表达 式 的 末尾 
添加 一 个 表示 “ 除 [.，? ! ] 之 外 的 任何 字符 ”的 否定 逆序 环视 ， (〈? 
<! [，? ! D , 即 可 。 结 果 就 是 ， 在 我 们 匹配 到 作为 URL[ 匹 配 的 文本 
之 后 ， 逆 序 环 视 会 反 过 头 来 看 一 眼 ， 保 证 最 后 的 字符 符合 要 求 。 如 果 不 
符合 要 求 ， 引 擎 就 会 重新 检查 作为 URL 的 字符 串 ， 直 到 最 终 符合 要 求 为 
止 。 也 就 是 强迫 去 掉 最 后 的 标点 ， 让 最 后 的 逆序 环视 匹配 成 功 〈 在 第 5 
革 我 们 会 看 到 为 一 个 解决 办 法 号 206) 。 

插入 之 后 ， 我 们 得 到 了 完整 的 程序 : 


undef $/; # 进入 文件 读 取 模式 
Stext = ©; # 读 入 命令 行 中 指定 的 第 一 个 文件 


stext =~ s/&/&amp;/g; # 转换 基本 的 HIML .. 
Stext =~ s/</&lt;/g; # ws Fay & < He x 
Stext =~ s/>/agt;/g; # ... #47 HTML #X 


Stext =~ s/*\s*$/<p>/mg; # 划分 段落 


# 将 E-mail 地 址 转换 为 链接 形式 . 
Stext =~ s{ 

\b 

# 把 地 址 保存 到 $1 .… 


\w[-.\w]* # username 


[-a-z0-9]+(\.[-a-z0-9]+)*\. (com|edu|info) # hostname 
) 
\b 
}{<a href=“mailto:$1”>$1</a>}gix; 


# 将 HTTP URL 转换 为 链接 形式 .。 
Stext =~ s{ 
\b 
# URL 保存 至 $1 . 
http:// [-a-z0-9]+(\. [-a-z0-9]+)*\.(com|edu|info) \b # hostname 
人 
/ [-a-z0-9 :\@&?=+,.1/~*'S\S]*  # path 不 一 定 会 出 现 
(ET # RAV [., 21) RE 
)? 
} {<a href="$1">$1</a>}qix; 
print $text; # 最 后 ， 显 示 结 果 


构建 正则 表达 式 库 

请 注意 ， 在 这 两 个 例子 中 ， 我 们 使 用 同样 的 正则 表达 式 来 匹配 主机 
名 ， 也 束 是 说 ， 如 果 要 修改 匹配 主机 名 的 表达 式 ， 我 们 希望 这 种 修改 会 
同时 对 两 个 例子 生效 。 我 们 可 以 在 程序 中 多 次 使 用 变量 


$HostnameRegex， 而 不 是 把 这 个 表达 式 写 在 各 处 ， 杂 乱 无 绪 : 


$HostnameRegex = qr/[-a-z0-9]+(\. [-a-z0-9]+) *\. (com|edu|info) /i; 


# 将 E-mail 地 址 转换 为 链接 形式 .. 
Stext =~ s{ 

\b 

# 将 地 址 保存 至 $1.. 


\w[-.\w]* # username 
\@ 
S$HostnameRegex # hostname 
) 
\b 


}{<a href=“mailto:$1”>$1</a>}gix; 


# + HTTP URL 转换 为 链接 形式 
Stext =~ s{ 

\b 

# Capture the URL to $1 ... 


( 
http:// $HostnameRegex \b # hostname 


( 
f [-a-z0-9 VE YI] 天 # path A—-KSHSR 
C221 [os gT # 不 容许 以 [.，?!] 结尾 
)? 
) 
} {<a href=“$1”">$1</a>}gix; 


第 一 行使 用 了 Perl 的 qr 控 作 符 。 它 与 n 和 s 操 作 符 类 似 ， 接 收 一 个 正 
则 表达 式 《 例 如 ， 使 用 dv.../， 次 似 使 用 m/.../ 和 Ss/../.../) ， 但 并 不 马上 
把 这 个 正则 表达 式 应 用 到 某 段 文本 中 进行 四 配 ， 而 是 由 这 个 表达 式 生 成 
为 一 个 “regex 对 象 (regex object) ”， 作 为 变量 保存 。 之 后 我 们 束 能 使 用 
这 个 对 象 。 在 本 例 中 ， 我 们 用 变量 $HostnameRegex 来 保存 这 个 变 
量 ， 供 后 面 两 个 正则 表达 式 使 用 。) 这 样 做 非常 方便 ， 因 为 程序 看 起 来 
非 党 清楚。 此外， 我 们 的 匹配 主机 名 的 正则 表达 式 只 存在 一 个 “ 主 源 
(main source) ”, 这样 无 论 在 哪里 需要 | 风 配 主机 名 ， 都 可 以 直接 使 用 
Co BOR (277) 还 有 有 关于 构建 这 种 “正则 表达 式 库 ”的 例子 ， 具 体 讲 
解 见 第 7 草 C303) 。 

其 他 的 语言 也 提供 了 创建 正则 表达 式 对 象 的 方法 ， 下 一 章 我 们 会 徐 
要 介绍 若干 语言 ， 而 Java 和 .NET 则 在 第 8 和 第 9 章 详 细 讲 解 。 


AUT A A I RGA @ T BEE ML 

你 可 能 注 昌 到了，'“$: 符 亏 既 可 以 作为 表示 字符 串 结 束 的 元 字符 ， 又 
可 以 用 来 标记 变量 。 通 常 ，4$:' 的 意思 是 很 明确 的 ， 但 如 果 在 字符 组 内 
部 ， 情 况 就 有 些 研 烦 ， 因 为 此 时 它 不 能 用 来 表示 字符 串 的 结束 人 位置， 只 
能 在 转 义 之 后 ， 用 来 标记 变量 。 在 转 义 之 后 ，'$' 就 只 是 字符 组 的 一 部 
分 。 而 这 正 是 我 们 所 要 的 ， 所 以 我 们 需要 在 URL[L 配 的 正则 表达 式 中 对 
它 进 行 转 义 。 

@ 的 情况 与 之 类 似 。Perl 用 @ 表 示 数 组 名 ， 而 Perl 中 的 字符 串 或 正 
则 表达 式 中 也 容许 出 现 数组 变量 。 如 果 我 们 希望 在 正则 表达 式 中 使 用 @ 
VB.NET, C, CH., Emacs, awk) 不 支持 变量 插值 (variable 
interpolation) 。 有 些 语言 〈 例 如 Perl、PHP、Python、Ruby 和 Tcl) 文 持 
变量 插值 ， 但 是 方法 各 有 不 同 。 我 们 会 在 下 一 章 详细 讲解 〈 吗 101) 。 


回 到 单词 重复 问题 


That Doubled-Word Thing 
我 希望 第 1 Fe he BN) AY ve BS p ei es RER IE eA HY 
兴趣 。 在 本 章 的 开头 我 给 出 了 一 堆 难 全 的 代码 ， 将 其 作为 解法 之 一 : 
of = * ars 


while (<>) { 
next if !s/\b([a-z]+) ((?:\s|<[^>]+>)+) (\1\b) /\e[7m$1\e [m$2\e[7m$3\e [m/ig; 


s/*(2:[*\e]*\n)+//mg; # 删除 所 有 未 标记 的 行 

s/*/$ARGV: /mg; # 在 行 首 增加 文件 名 

print; 

Perl A SHE SHA, Fea cae BZD RRA TE Ps BAN EURIA 
式 应 用 -其 中 的 过 > ， 三 个 s/.../.../， 以 及 print。 不 过 ， 其 他 的 部 分 仍 
然 很 难 。 如 果 你 天 于 Perl 的 知识 全 部 来 目 本 草 (而 且 关 于 正则 表达 式 的 
AUR ABR A ZAR) ， 这 个 例子 可 能 会 超出 你 的 理解 能 力 。 不 过 ， 
如 果 细 致 考察 起 来 ， 我 认为 这 个 正则 表达 却 并 不 复杂 。 在 重 谈 程 序 之 
前 ， 我 们 不 妨 回 过 头 看 看 第 1 页 的 程序 规格 要 求 ， 并 答 试 运行 一 次 : 





5 perl -w FindDbl ch01.txt 

ch01.txt: check for doubled words (such as this this), a common problem with 
ch01.txt: * Find doubled words despite capitalization differences, such as with 'The 
ch01.txt:the', as well as allow differing amounts of whitespace (space, tabs, 
ch0l.txt: /\<(1,000,000|million|thousand thousand) / But alternation can't be 
ch01.txt: of this chapter. If you knew the the specific doubled word to find (such 


先 来 看 这 个 Perl 的 解法 ， 然 后 我 们 会 看 到 一 个 Java 的 解法 ， 接 触 男 
一 种 使 用 正则 表达 式 的 思路 。 现 在 列 在 下 和 面 的 程序 使 用 Y s{regex} 
{replacement}modifier 的 僚 换 形式 ， 同 时 使 用 了 /x 修饰 符 来 提高 清晰 程 
上 度 《〈 衬 间 更 双 裕 的 时 候 ， 我 们 使 用 更 易 懂 的 人 ext unless’ #4 fk ‘next 
if! ，) 。 际 去 这 些 ， 它 与 本 章 开头 的 程序 其 实 束 是 一 模 一 样 的 。 

示例 2-3: 用 Perl 处 理 重 复 单 词 


$/ = MAn”; 0 # 设 定 特殊 的 “ 块 模式 ” (“chunk-mode”) ; 一 块 文本 的 终结 为 点 号 和 换 
行 符 的 结合 休 
while (< >) e 
| 
next unless s{+ # (下 面 是 正则 表达 式 ) 

### 匹配 一 个 单词 : 
\b E 单词 的 开始 位 置 … 
( [a-z]+ ) + 把 读 取 的 单词 存储 至 $1 (fe \1) 


HE 下 面 是 任意 多 的 空白 字符 和 /或 tag 
# 把 空白 保存 到 $2 


(2: # (使 用 非 捕 获 型 括号 ) 
\s # 空白 字符 (包括 换行 符 ， 这 样 非常 方便 ) 
| # 或 者 是 

<[*>]+> # <TAG>H AW tag 

) + t EYEREM—R, SRC 


) 


ttt 现在 再 次 匹配 第 一 个 单词 : 
(\1\b) E \b 保证 用 来 避免 谨 套 单词 的 情况 ， 保 存 到 $3 

E (正则 表达 式 结束 ) 

} 

# 上 面 是 正则 表达 式 ， 下 面 是 replacement 字符 事 ， 然 后 是 修饰 符 、/i、/g 和 /x 

{\e[7m$1\e[m$2\e[7m$3\e[m]igx; + 

s/^(?:[^\e]*\n)+//mg; = # 去 掉 所 有 未 标记 的 行 

s/^/SRARGV: /mg; ~ E 在 每 行 开头 加 上 文件 名 

四 下 二 这 七 

} 

IR) Bae ee P SE BOTT LY As PG. ER SS Te) SP ZA 
它们 以 及 育 后 的 锡 辑 ， 不 过 我 建议 旋 者 个 看 Perl 的 man ” page 了解 细 市 
(如 条 是 正则 表达 却 相 关 的 细节 ， 可 以 查 疯 第 7 重 ) 。 在 下 面 的 摘 述 
iM “pay” Cmagic) Hy a ae“ OA BS ce BY Be NAS AY Perl HY FF 

0 因为 单词 重复 问题 必须 应 付 单 词 重 复位 于 不 同行 的 情况 ， 我 们 不 
能 延续 在 E-mail 的 例子 中 使 用 的 普通 的 按 行 处 理 的 方式 。 在 程序 中 使 用 
特殊 变量 %〈 没 钳 ， 这 确实 是 一 个 变量 ) 能 使 用 一 种 神奇 的 方式 ， 让 去 
> 不 再 返回 单行 文字 ， 而 返回 或 多 或 少 的 一 段 文 字 。 返 回 的 数据 仍然 是 


一 个 字符 串 ， 只 是 这 个 字符 串 可 能 包含 多 个 多 辑 行 。 

e 你 是 否 注 意 到 ， 二 二 没有 值 赋 给 任何 变量 ?作为 while 中 的 条 件 使 
用 时 ， 二 二 的 神奇 之 处 在 于 ， 它 能 够 把 字符 串 的 内 容 赋 给 一 个 特殊 的 默 
认 变 量 ( 注 6) 。 该 变量 保存 了 5/.../.../ 和 print 作 用 的 默认 字符 串 。 使 用 
这 些 默认 变量 能 够 减少 元 余 代 码 ， 但 Perl 新 手 不 容易 看 明白 ， 所 以 我 还 
是 推荐 ， 在 你 习惯 之 前 ， 把 程序 写 得 更 清楚 一 些 。 

= 如 各 没有 进行 任何 符 换 ， 那 么 蔡 换 命令 之 六 的 next unless 
Perl 中 上 断 处 理 当 前 字符 串 《〈 转 而 开始 下 一 个 字符 串 ) 。 如 宁 在 当前 字符 
串 中 没有 找到 单词 重复 ， 也 就 不 必 进 行 下 一 步 的 工作 。 

Z replacement 字 符 串 包含 的 就 是 “$1$2$3”， 加 上 插入 的 ANSI 转 义 序 
列 ， 把 两 个 重 登 的 词 标记 为 高 涡 ， 中 国 的 部 分 则 不 标记 高 觉 。 转 义 序 列 
\e[Zm 用 于 标注 高 亮 的 开始 ，\e[m 用 于 标注 高 亮 的 结束 《在 Penl 的 正则 表 
达 式 和 字符 串 中 ，\e 用 来 表示 ASCII 的 转 义 字符 ， 该 字符 表示 之 后 的 字 
人 符 为 ANSI 转 义 序列 ) 。 

仔细 看 看 正则 表达 式 中 的 那些 括号 ， 你 会 发 现 “$1$2$3” 表 示 的 完全 
HLA VLACHY SCA. POA, BR SUSIE MPI Zp, BER GRACIA 
进行 任何 实质 修改 。 

我 们 知道 $1 和 $3 匹配 的 是 同样 的 文本 〈 这 也 是 整个 程序 的 意义 所 
Æ! ) ， 上 所 以 在 replacement 中 只 用 一 个 也 是 可 以 的 。 不 过 ， 因 为 这 两 个 
单词 的 大 小 写 可 能 有 区 别 ， 我 用 了 两 个 变量 。 

= 这 个 字符 串 可 能 包括 多 个 远 辑 行 ， 不 过 在 普 换 命令 标记 了 所 有 的 
重复 单词 之 后 ， 我 们 希望 只 保留 那些 包含 转 义 字符 的 逻辑 行 。 去 掉 不 包 
舍 转 义 字 人 符 的 馆 辑 行 之 后 ， 留 下 的 束 是 字符 串 中 我 们 需要 处 理 的 行 。 
为 我 们 在 蔡 换 中 使 用 的 是 增强 的 行销 点 匹配 模式 Cm HAF)» ENK 
达 式 和 Aex \n) + 能 够 找 出 不 包含 转 义 字符 的 逻辑 行 。 用 这 个 表达 
式 来 蔡 换 掉 所 有 不 需要 处 理 的 行 。 结 果 留 下 的 只 是 包含 转 义 字符 的 逻辑 
行 ， 也 即 那些 包含 单词 重复 的 行 〈 注 7) 。 

y 变量 $ARGYV 提供 了 输入 文件 的 名 字 。 结 合 /m Mg, XAB n 
令 会 把 输入 文件 名 加 到 留 下 的 每 一 个 远 辑 行 的 开头 。 多 酷 ! 

最 后 ，print 会 输出 字符 串 中 留 下 的 馆 辑 行 以 及 转 义 字符 。while 循 环 
对 输入 的 所 有 字符 串 重 复 处 理 〈 每 次 处 理 一 段 ) 。 

更 深入 一 点 : 运算 从、 函数 和 对 象 

我 之 前 已 经 强调 过 ， 在 本 章 我 以 Perl 作为 工具 来 讲解 概念 。Perl 的 
确 是 一 种 有 用 的 工具 ， 但 我 想 要 强调 的 是 ， 这 个 问题 利用 其 他 语言 的 正 
则 表达 式 解 决 起 来 也 很 容易 。 

同样 ， 因 为 Perl 具有 与 其 他 高 级 语言 不 同 的 独特 风格 ， 讲 解 这 些 概 


念 更 加 容易 。 这 种 独特 风格 就 是 ， 正 则 表达 式 是 “基础 级 别 first- 
class) ”的 。 也 就 是 说 ， 基 本 的 运算 从 可 以 直接 作用 于 正则 表达 式 ， 就 
好 保 + 和 -作用 于 数字 一 样 。 这 样 减轻 了 使 用 正则 表达 式 的 “语法 包 

Mk” (syntactic baggage) 。 

其 他 许多 语言 并 没有 这 样 的 符 性 。 因 为 第 3 章 中 所 到 的 原因 CS 
93) ， 许 多 现代 语言 坚持 提供 专用 的 函数 和 对 象 来 处 理 正则 表达 式 。 例 
如 ， 可 能 有 一 个 函数 接收 表示 正则 表达 式 的 字符 串 ， 以 及 用 于 搜索 的 文 
本 ， 然 后 根据 正则 表达 式 能 个 匹配 该 文本 ， 返 回 真 值 或 假 值 。 更 第 见 的 
情况 是 ， 这 两 个 功能 《首先 对 一 个 作为 正则 表达 式 的 字符 串 进 行 解 释 
(interpretion) ， 然 后 把 它 应 用 到 文本 当中 ) 被 分 割 为 两 个 或 更 多 分 离 
的 函数 ， 束 像 下 一 页 的 Java 代 但 一 样 。 这 些 代 码 使 用 Javal.4 以 后 作为 标 
准 的 java.util.regex 包 。 

在 程序 的 上 部 我 们 看 到 ， 在 Perl 中 使 用 的 3 个 正则 表达 式 在 Java 
中 作为 字符 串 传递 给 Pattern.compile 程 序 。 通 过 比较 我 们 发 现 ，Java 版 本 
的 正则 表达 陈 包含 了 更 多 的 反 笠 线 ， 原 因 是 Java 要 求 正 则 表达 陈 必 须 以 
PAST HEE. TEM AeA SUA AY RAR Ae Whe Sava TE A AT 
字符 串 时 按照 上 自己 的 方式 处 理 它 们 。 

我 们 还 应 该 注意 到 ， 正 则 表达 式 不 是 在 程序 处 理 文本 的 主体 部 分 出 
现 ， 而 是 在 开 尖 的 初始 化 部 分 出 现 的 。Pattern.compile PA Z ETNE WAY 
是 分 析 这 些 作 为 正则 表达 式 的 字符 串 ， 构 建 一 个 “已 编译 的 版 本 
(compiled version) ”， 将 其 赋 给 Pattern 变 量 〈 例 如 regex1) 。 然 后 ， 在 
处 理 文 本 的 主体 部 分 ， 已 编 详 的 版 本 通过 regex1.matcher (text) 应 用 到 
文本 之 上 ， 人 得 到 的 结果 用 于 符 换 。 同 样 ， 我 们 会 在 下 一 重 探 完 其 中 的 细 
节 ， 在 这 里 我 们 只 需要 了 解 ， 在 学 习 任 何 一 门 文 持 正则 表达 式 的 语言 
时 ， 我 们 需要 注意 两 点 : 正则 表达 式 的 流派 ， 以 及 充 语 言 运 用 正则 表达 
INI Ts 

示例 2-4: 用 Java 解 决 午 复 单词 的 问题 


import java.io.*; 
import java.util.regex.Pattern; 
import java.util.regex.Matcher; 


public class TwoWord 
{ 
public static void main(String [] args) 
{ 
Pattern regexl = Pattern.compile ( 
“\\b ( [a-z] +) ((?:\NsIN\<[%>] ENASI +) (ANINND)”, 
Pattern.CASE INSENSITIVE) ; 
String replacel = “\033[7m$1\033 [m$2\033[7m$3\033[m”; 
Pattern regex2 = Pattern.compile (“*(?: [*\\e]*\\n) +”, Pattern.MULTILINE) ; 
Pattern regex3 = Pattern.compile(‘“*([*\\n]+)”, Pattern.MULTILINE) ; 


// 对 于 命令 行 的 每 个 参数 进行 如 下 处 理 .…. 
for (int i = 0; i < args.length; itt) 
{ 
try { 
BufferedReader in = new BufferedReader (new FileReader(args[i])); 
String text; 


// For each paragraph of each file.... 
while ((text = getPara(in)) != null) 
{ 
// 应 用 3 条 替换 规则 
text = regexl.matcher (text) .replaceAll (replacel); 
text regex2.matcher (text) .replaceAll (“™“); 
text regex3.matcher (text) .replaceAll(args[i] + “: $1”); 


// 显示 结果 
System.out .print (text); 
} 
}catch (IOException e) { 
System.err.println(“can't read [“targs[i]+”]: “ + e.getMessage()); 


} 
} 
// 用 于 读 入 “一 段 ” 文 本 的 子 程序 


static String getPara (BufferedReader in) throws java.io.IOException 
{ 

StringBuffer buf = new StringBuffer(); 

String line; 


while ((line = in.readLine()) != null && 
(buf.length() == || line.length() != 0)) 
{ 
buf.append(line + “\n”); 

} 

return buf.length() == 0 ? null : buf.toString(); 
} 
} 


FSF IE MKIA TUE REE A w, 


Overview of Regular Expression Features and Flavors 
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软件 ， 你 可 能 部 得 ， 该 坐 下 来 潜心 研究 研究 如 何 使 用 它们 了 。 不 过 ， 比 
较 比 较 第 1 革 中 不 同 版 本 的 egrep， 或 是 前 一 章 中 Perl 程 序 和 Java 程 序 的 区 
别 就 会 友 现 ， 工 具 不 同 ， 正 则 表达 式 的 写法 和 用 法 都 有 很 大 的 不 同 。 

在 菏 种 特定 的 箱 主 语言 或 工 其 软件 中 使 用 正则 表达 式 时 ， 主 要 有 3 
个 问题 值得 注意 : 

e 文 持 的 元 字符 ， 以 及 这 些 元 字符 的 意义 。 这 通 第 称 为 正则 表达 却 
的 “流派 (flavor) ”。 

e 正 则 表达 去 与 语言 或 工具 的 “交互 ”(interface) 方式 。 壁 如 如 何 进 
FT IE 2a AERP 容许 进行 哪些 操作 ， 以 及 这 些 操 作 的 目标 文本 次 

e 正 则 表达 去 引擎 如 何 将 表达 式 应 用 到 文本 。 语 言 或 工具 的 设计 者 
实现 正则 表达 式 的 方法 ， 对 正则 表达 式 能 够 取得 的 结果 有 重要 的 有 影响。 

正则 表达 式 和 汽车 

购买 汽车 时 ， 我 们 需要 考虑 的 问题 和 上 和 面 3 点 很 相似 。 正 则 表达 去 
中 的 元 字符 是 应 当 首 先天 注 的 ， 它 相当 于 汽车 的 造型 、 色 彩 和 内 饰 ， 例 
如 CD 播放 研 和 真皮 座 椅 。 印 刷 光 鲜 的 宣传 肌 上 经 党 可 以 见 到 这 些 信 
轧 ， 在 正则 表达 式 的 世界 中 ， 与 之 对 应 的 了 是 第 32 页 的 元 字符 列表 。 这 
些 信息 很 重要 ， 但 还 不 是 全 部 。 

正则 表达 式 与 宾主 语言 的 交互 方式 Cinterface) PIREZ. BA 
式 的 一 部 分 内 容 起 到 涛 饰 性 作用 ， 摘 述 对 应 的 编程 语言 中 正则 表达 式 的 
应 用 规则 。 男 一 部 分 内 容 定 义 功能 ， 它 们 决定 了 语言 所 能 文 持 的 操作 ， 
以 及 操作 的 难 易 程度 。 对 应 于 汽车 的 例子 ， 它 相当 于 汽车 与 我 们 和 我 们 
的 生活 相 “ 结 合 ” 的 程度 。 某 些 问 题 可 能 是 装饰 性 的 ， 例 如 加 油 口 在 车 的 
哪 一 侧 ， 车 窗 是 人 否 能 电动 升降 。 其 他 问题 可 能 午 要 些 ， 例 如 是 手动 变速 
还 是 目 动 变速 。 还 有 些 关 于 功能 的 问题 : 你 的 车 怎样 开 进 车 库 ? CHER 
得 下 一 个 大 号 床 垫 吗 ?如果 是 背 雪 板 呢 ?或 者 五 个 大 人 ? 《以 及 这 些 人 
如 何 进出 ， 在 这 个 问题 上 四 门 车 显然 比 两 门 车 有 优势 ) 。 宣 传 册 会 介绍 
一 些 此 类 信息 ， 不 过 你 可 能 需要 阅读 封 压 的 小 字 才 能 了 解 所 有 细 市 。 

最 后 害 要 关注 的 是 引擎 ， 以 及 引擎 驱 动车 轮 的 原理 。 汽 车 的 类 比 在 
这 里 不 适用 ， 因 为 大 家 都 理解 汽车 及 动机 工作 的 基本 知识 : 如 果 是 汽油 


友 动 机 ， 人 们 束 不 会 往 油箱 里 加 染 油 。 如 果 是 手动 变速 ， 他 们 不 会 瑟 记 
踪 离 合 融 。 但 是 ， 在 正则 表达 式 的 世界 中 ， 即 使 是 一 些 最 基本 的 知识 : 
例如 正则 引擎 的 匹配 原理 ， 以 及 该 原理 对 表达 式 的 调 校 和 使 用 的 影响 ， 
通常 都 没有 文档 介绍 。 但 是 ， 这 些 细 市 对 实际 使 用 正则 表达 式 又 极其 重 
要 ， 所 以 我 们 会 在 下 一 草 用 整 章 的 马 幅 来 讲解 。 

AS Fe EY PY 
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使 用 的 元 字符 ， 以 及 在 具体 的 工具 软件 中 便 用 正则 表达 去 的 方式 。 这 些 
内 容 渭 蓄 了 上 文 提 到 的 前 面 两 上 品 。 第 三 扩 一 一 正则 引擎 是 如 何 工作 的 ， 
这 些 工作 原理 有 什么 实际 意义 一 一 会 在 下 和 面 的 儿 间 中 涉 太 。 

天 于 本 章 ， 我 要 说 的 一 点 是 ， 它 并 不 能 各 诉 你 条 种 工具 软件 中 的 正 
则 表达 式 提 供 了 哪些 特性 ， 也 不 会 教育 你 如 何 使 用 在 提 过 的 各 种 工具 软 
件 和 编程 语言 中 运用 正则 表达 式 。 相 反 ， 它 的 目的 是 ， 拓 供 关 于 正则 表 
达 式 本 里 和 使 用 它 的 工具 软件 的 完整 图 景 。 如 果 我 们 与 世 隅 绝 ， 只 使 用 
一 件 工具 ， 或 许 不 需要 关心 其 他 的 工具 《或 者 是 该 工具 的 其 他 版 本 ) 有 
什么 下 腊 。 但 现实 迟 况 并 非 如 此 ， 所 以 了 解 我 们 所 用 工具 的 技术 济源 ， 
或 许 能 够 提供 有 趣 而 义 有 价值 的 局 示 。 





在 正则 的 世界 中 漫步 


A Casual Stroll Across the Regex Landscape 

我 喜欢 在 故事 的 开头 讲 讲 茶 些 正则 表达 陈 的 流泪 以 及 相应 程序 的 满 
变 过 程 。 所 以 ， 请 准备 一 杯 你 最 喜欢 的 热 “〈 或 疗 的 ) 饮料 ， 放 轻松 ， 我 
们 一 起 来 看 看 今天 的 正则 表达 陈 背 后 古怪 的 友 展 史 。 这 样 做 是 为 了 让 你 
全 面 了 解 正则 表达 式 ， 培 状 退 问 “ 为 什么 会 如 此 ”的 习惯 。 我 们 为 有 兴趣 
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正则 表达 式 的 起 产 


The Origins of Regular Expressions 

天 于 正则 表达 式 ， 最 初 的 想法 来 目 20 世 纪 40 年 代 的 两 位 神经 学 家 ， 
Warren McCulloch 和 Walter Pitts， 他 们 研究 出 一 种 模型 ， 认 为 神经 系统 
在 神经 元 层面 上 就 是 这 样 工 作 的 〈 注 1) o EFF. AX Stephen 
Kleene 在 代数 学 中 正式 揪 述 了 这 种 被 他 称 为 “正则 集合 ”(regular sets) 
的 模型 ， 正 则 表达 式 才 成 为 现实 。Stephen 发 明了 一 套 人 简洁 的 表示 正则 
集合 的 方法 ， 他 称 之 为 “正则 表达 式 ”(regular expressions) 。 

20 世 纪 50 年 代 和 60 年 代 ， 理 论 数学 界 对 正则 表达 式 进 行 了 有 完 分 的 研 
Fo Robert Constable 的 文章 为 那些 对 数学 感 兴趣 的 谈 者 提供 了 很 不 错 的 


尽管 存在 更 吝 老 的 应 用 正则 表达 式 的 证 据 ， 但 我 能 找到 的 是 ， 天 于 
在 计算 方面 使 用 正则 表达 式 的 资料 ， 最 早 发 表 的 是 1968 年 Ken 
Thompson 的 文章 Regular Expression Search Algorithm ( 注 3) ， 在 文 
中 ， 他 摘 述 了 一 种 正则 表达 式 编 诺 项 ， 访 编译 硕 生 成 了 ” IBM 7094 的 
ait HCH EAE SN ged, XP RSK J Unix ed Zig 44 
ar ASAE o 
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非 技 术 领 域 大 规模 使 用 。ed AAAS, MAN EEE YC EHP Be oe DE Ae 
特定 正则 表达 式 的 行 。 该 命令 “g/Regular Expression/p”， 读 作 
Global Regular Expression Print (应 用 正则 表达 式 的 全 局 输出 ) 。 这 
个 功能 非常 实用 ， 最 终 成 为 独立 的 工具 grep 〈 之 后 叉 产 生 了 egrep H 
展 的 grep) 。 





Grep 中 的 元 字符 

相 比 egrep，grep 和 其 他 早期 工具 所 文 持 的 元 字符 相当 有 限 。 元 字符 
火 是 受 文 持 的 ， 但 是 + 和? 则 不 受 文 持 《〈 不 文 持 问 亏 是 很 严重 的 的 
K) 。Grep 中 用 于 捕获 元 字符 的 是 \(..、\) ， 而 未 转 义 的 括号 会 当 作 普 
通 字符 GES) 。grep 支 持 行销 点 (line anchors) ， 但 方式 十 分 有 限 。 如 
果 ^ 出 现在 正则 表达 式 的 开头 ， 它 束 是 匹配 行 开头 的 元 字符 。 人 否则 它 残 
不 是 一 个 元 字符 ， 而 只 是 一 个 普通 的 脐 字 符 。 同 样 ，$ 只 有 出 现在 正则 
表达 式 的 末尾 时 才 被 当 作 元 字符 。 结 果 ， 用 户 没 法 使 用 "end$lAstart 这 样 
的 表达 式 。 不 过 这 不 要 紧 ， 因 为 grep 不 文 持 多 选 结构 。 

元 字符 的 作用 规则 也 很 重要 。 例 如 ，grep 有 的 最 大 问题 或 许 在 于 ， 星 
号 无 法 用 来 限定 括号 内 的 和 子 表 达 式 ， 而 只 能 用 于 限定 普通 的 字符 、 字 人 符 
组 ， 或 者 点 号 。 所 以 ， 在 grep 中 ， 括 亏 的 作用 仅 限 于 捕获 已 匹配 的 文 
本 ， 而 不 能 用 来 进行 普通 的 分 组 。 实 际 上 ， 霖 些 早期 版 本 的 grep 甚 至 不 
MFA SRE. 

Grep 的 发 展 历程 

尽管 今天 的 许多 系统 都 有 对 应 的 grep， 但 你 会 注意 到 ， 本 书 中 提 到 
grep 时 使 用 的 都 是 过 去 时 态 〈 详 注 1) 。 过 去 时 对 应 旧版 本 所 属 的 流 
派 ， 它 们 的 历史 都 超过 30 年 了 。 在 这 段 时 间 中 ， 技 术 在 不 断 进 步 ， 旧 的 
程序 也 会 加 入 新 的 特性 ，grep 也 不 例外 。 

在 最 老 版 本 的 grep 之 上 ，AT&T 的 贝尔 实验 室 加 入 了 一 些 新 的 特 
性 ， 例 如 从 lex 程 序 中 借鉴 来 的 min，max}。 他 们 还 修正 了 -y 选 项 ， 早 
期 版 本 的 grep 通 过 -y 进 行 不 区 分 大 小 与 的 匹配 ， 但 此 功能 并 不 正 钊 。 同 
If, Berkeley ”的 人 加 入 了 表示 单词 开头 和 结束 的 元 字符 ， 把 -y 改 为 -i。 
不 蔷 的 是 ， 星 亏 或 其 他 量词 仍然 无 法 作用 于 括号 内 的 表达 陈 。 

Egrep 的 及 展 有 历程 

此 时 ，Alfred Aho《〈 同 样 是 AT&T 的 贝尔 实验 室 ) 写 出 了 egrep， 它 
提供 了 第 1 和 章 介 绍 的 各 种 元 字符 中 的 大 部 分 元 字符 。 更 重要 的 是 ， 它 以 
一 种 全 然 不 同 〈 但 总 的 来 说 更 好 ) 的 方式 实现 了 这 些 功 能 。 不 但 加 上 了 
+M? ， ， 还 容许 量词 作用 于 括号 内 的 表达 式 ， 这 大 大 增强 了 egrep 的 


同时 ， 多 选 结 构 加 入 了 ， 行 销 点 也 升级 到 “基础 级 别 ”， 可 以 在 正则 
表达 式 的 任何 地 方 使 用 。 不 过 ，egrep 也 不 够 完美 一 一 有 时 候 它 能 
配 ， 但 不 会 显示 结果 ， 而 且 它 缺乏 东 些 当今 流行 的 特性 。 不 过 无 论 如 
何 ， 它 都 比 grep 有 用 得 多 。 

其 他 工具 的 发 展 历程 

束 在 egrep 演 变 的 同时 ， 其 他 程序 ， 例 如 awk、lex 和 和 sed， 也 在 按 各 





目的 脚步 前 进 。 通 种， 开 友 人 员 会 把 菏 个 程序 中 目 己 喜欢 的 特性 深 加 到 
其 他 程序 中 。 有 时 候 ， 结 果 并 不 尽 如 人 意 。 例 如 ， 如 果 要 在 grep 中 增 
加 对 '+ 的 支持 ， 束 不 能 直接 使 用 ‘+”， 因 为 长 期 来 以 来 在 grep t Ab 
是 元 字符 ， 突 然 进 行 这 种 修改 会 让 大 家 感到 不 适应 。 因 为 + 可 能 是 
grep 的 用 户 在 正章 情 况 下 不 会 输入 的 ， 把 它 作 为 “ 重 现 一 次 或 多 次 ”的 元 
字符 可 能 更 合适 。 

有 时 候 ， 还 加 新 特性 也 会 市 来 新 的 pug。 另 外 一 些 时 候 ， 新 添加 的 
特性 不 久 后 又 梓 删 除了 。 构 成 流 铂 的 各 个 细微 的 方面 ， 几 乎 都 没有 什么 
文档 ， 所 以 新 的 工具 软件 要 么 形成 了 上 自己 的 流派 ， 要 么 笑 试 模仿 其 他 工 
其， 提供 “看 来 相似 ”的 功能 。 

这 一 切 ， 加 上 漫长 的 发 展 史 ， 众 多 的 程序 员 ， 结 果 束 古 已 大 的 迹 局 

( 注 5) à- 

POSIX 一 一 标准 化 的 符 试 

诞生 于 1986 年 的 POSIX 是 Portable Operating System Interface (可 移 
植 操 作 系 统 接 口 ) 的 顷 写 ， 它 是 一 系列 标准 ， 确 你 操作 系统 之 间 的 移植 
性 。 访 标准 的 茶 些 部 分 关乎 正则 表达 式 和 使 用 他 们 的 传统 工具 ， 所 以 值 
得 我 们 关注 。 不 过 ， 本 书 涉及 的 各 种 流 铂 无 一 严格 地 用 守 了 所 有 的 相关 
规定 。 为 了 厘 消 正 则 表达 式 的 混乱 局 面 ，POSIX 把 各 种 第 见 的 流派 分 为 
两 大 类 : Basic Regular Expressions (BREs) 和 Extended Regular 
Expressions (EREs) 。POSIX 程 序 必 须 文 持 其 中 的 任意 一 种 。 下 页 的 表 
3-1 稍 要 介绍 了 这 两 种 激 铂 的 元 字符 。 

POSIX 标 准 的 主要 特性 之 一 是 locale， 它 是 一 组 关于 语言 和 文化 传 
统一 一 例如 日 期 和 时 间 的 格式 、 仙 币 币 值 、 和 字符 编码 对 应 的 意义 等 一 一 
的 设 定 。locals 的 目的 在 于 让 程序 变 得 国际 化 。 它 们 不 是 正则 表达 式 相 
天 的 委 念 ， 尽 管 它们 会 影响 正则 表达 式 的 使 用 。 举 例 来 说 ， 工 作 于 
Latin-1 编 码 〈 也 称 为 "ISO-8859-1”) 之 中 时 ，a 和 A《〈 分 别 对 应 十 进 制 编 
但 224 和 160) 也 被 认为 是 “字符 ”， 任 何不 区 分 大 小 写 的 正则 表达 式 都 会 
认为 这 两 个 字符 是 相等 的 。 

表 3-1: POSIX 正 则 表达 式 流派 概览 




















正则 表达 式 特性 BREs EREs 
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男 一 个 例子 是 Ww， 通 党 用 于 表示 “构成 单词 的 字符 ”( 在 很 多 流派 
中 ， 它 等 价 于 [a-zA-Z0-9_]〉。 这 个 特性 并 不 是 POSIX 中 必须 的 ， 但 容 
许 出 现 。 如 果 文 持 有 的话 ，\w 束 能 对 应 locale 中 的 所 有 和 字母 和 数字 ， 而 不 
仅仅 限于 ASCII 编 码 的 字符 和 数字 。 

如 末 程 序 文 持 Unicode， 那 么 关于 locale 的 问题 吏 极 大地 人 徐 化 了 。 
Unicode 的 评 细 讨论 从 106 页 开始 。 

Henry Spencer} IE U KARE 

同样 是 在 1986 年 ， 及 生 了 于 一 件 更 重要 的 事情 ，Henry Spencer 及 布 
了 用 C 语 言 写 的 正则 表达 式 包 ， 这 个 包 可 以 坚 无 困难 地 置 入 其 他 程序 中 
一 一 这 在 当时 具有 开创 性 的 意义 。 每 一 个 使 用 Henry 的 包 的 程序 的 
确 存 在 很 多 都 属于 相同 的 流派 ， 除 非 程 友 的 作者 费 尽 周折 去 修改 。 

Perl 的 发 展 历 程 

EDZE, Lary Wall 开 始 开 友 一 各 工具， 也 束 古 日 后 的 Perl 语 
言 。 他 的 patch 程 序 已 经 大 大 促进 了 分 布 式 软件 开 友 (distributed software 
development) ， 但 是 Per 注定 要 产生 重大 的 影 啊 。 

1987 年 12 月 ，Larry 发 布 了 Perl Version 1。Perl 很 快 引 起 了 关注 ， 
为 它 迷 合 了 其 他 语言 的 众多 特性 ， 但 指 回 一 个 明确 的 上 有 目的; te AIA 
第 所 说 的 “实用 Cuseful) ”。 

Perl 的 特性 中 值得 一 提 的 是 ， 它 提供 了 传统 上 只 有 专用 工具 sed 和 
awk 才 提 供 的 正则 表达 式 操作 人 符 一 一 这 在 通用 脚本 语言 中 是 个 首创 。 正 
则 引擎 的 代码 来 目 一 个 早期 的 项 目 Larry W754 fl bal ahi 《〈 其 中 的 正 
则 表达 式 代 码 来 自 James Gosling 的 Emacs ( 注 6) ) 。Perl 的 正则 流派 ， 
用 当时 的 标准 衡量 是 很 强大 的 ， 但 功能 不 如 今天 那样 齐全 。 它 主要 的 问 
HET, wE R fex 9 组 括 写 ，9 个 多 选 结 构 ， 最 糟糕 的 是 ， 括 号 内 














不 容许 出 现 趾 ， 也 不 能 进行 不 区 分 大 小 写 的 匹配 ， 不 支持 字符 组 中 的 
Www〔 完 全 不 支持 \d 和 \s) 6 th ASCH fal Seta] {min, max}. 

Perl 2 友 布 于 1988 年 6 月 。Larry 完 全 放弃 了 原 有 的 正则 表达 式 代 
A, MCA SATE Henry Spencer 的 正则 表达 式 包 的 增强 版 。 括 
号 的 数目 仍然 只 有 9 个 ， 但 是 括号 中 可 以 使 用 | 了 。\d 和 \s 的 文 持 也 加 了 
进来 ，\w 现 在 可 以 匹配 下 男 线 了 了 了， 从 这 时 开始 ，\w 能 够 匹配 Perl 的 变量 
名 中 容许 出 现 的 字符 。 此 外 ， 字 符 组 之 内 也 可 以 出 现 元 字符 (表示 否定 
的 元 字符 、\D、\W 和 \S$， 也 可 以 文 持 ， 但 不 能 使 用 在 字符 组 内 部 ， 而 且 
忌 在 有 些 情 况 下 无 法 正常 工作 ) 。 很 重要 的 一 点 是 ， 添 加 了 /i 量词 ， 能 
够 进行 不 区 分 大 小 写 的 罗 配 。 

Perl 3 发 布 于 一 年 多 以 后 的 1989 年 10 月 。 它 添加 了 /e 量 词 ， 这 样 极 
大 地 增强 了 替换 运算 符 的 能 力 ， 同 时 修正 了 之 前 版 本 中 的 一 些 与 回溯 相 
关 的 bug。 也 这 加 了 {min，max} 区 国 量 词 。 虽 然 很 不 人 等 ， 这 些 量词 不 能 
保证 在 任何 情况 下 都 可 以 正常 工作 。 还 有 ， 这 时 候 Perl 的 正则 引擎 本 不 
应 该 仿 留 在 只 人 处理 8 位 编码 数据 的 水 平 ， 但 是 和 面 对 非 ASCII 输 入 时 ， 会 产 
生 无 法 预料 的 结果 。 

Perl 4 的 发 布 是 在 一 年 半 以 后 ，1991 年 3 月 ， 在 接 下 来 的 两 年 间 ， 
Perl 4 一 直 在 改进 ， 和 直到 1993 年 2 月 发 布 最 终 升 级 。 到 此 时 ， 之 前 的 bug 
已 经 修正 ， 原 有 的 限制 也 被 突破 (DD 之 类 可 以 应 用 在 字符 组 中 ， 而 括号 
的 数目 也 不 再 有 限制 ) ， 正 则 引擎 也 花 了 很 多 功夫 来 优化 ， 不 过 真正 的 
突破 是 在 1994 年 。 

Perl 5 正式 发 布 于 1994 年 10 月 。 这 一 版 的 Perl 经 历 了 了 全面 的 修整 ， 在 
各 个 方面 都 比 原来 强 上 许多 。 束 正则 表达 式 来 说 ， 它 进行 了 更 多 的 内 部 
优化 ， 添 加 了 少量 元 字符 (CAG 增 强 了 迭代 匹配 的 能 力 酸 130) 、 非 捕获 
的 括号 (45) 、 忽 略 优先 (lazy) 的 量词 C141) 、 顺 序 环 视 功 能 
C760) ， 以 及 /x 量词 (72) (CHEZ) 。 

这 些 新 增 功能 的 意义 并 不 限于 功能 本 身 ， 更 重要 的 是 ， 这 些 “ 新 
增 ” 的 修改 使 正则 表达 式 本 里 成 为 一 种 强大 的 编程 语言 ， 并 为 它 提 供 了 
进一步 的 发 展 空间 。 

新 增 的 非 捕 获 型 括号 和 有 顺序 环视 结构 都 需要 新 的 表达 方式 。 而 
(...) 、[...]、 反 .> 和 {..} 都 已 经 有 了 含义 ， 所 以 Larry 采 用 了 我 们 今 
天 使 用 的 ‘(? :表示 法 。 这 个 表示 法 并 不 好 看 ， 不 过 在 之 前 的 Per 正则 
表达 式 中 这 是 不 合 规则 的 组 合 ， 所 以 添加 起 来 完全 没有 障碍 。Larry 也 
预见 到 ， 将 来 可 能 还 需要 新 增 其 他 的 功能 ， 所 以 他 对 ‘(3? :之 后 的 字符 
做 了 限制 ， 这 样 就 能 保留 某 些 字符 ， 用 于 将 来 更 多 的 功能 。 

之 后 的 各 版 Perl 越 来 越 健壮 ， 错 误 越 来 越 少 ， 内 部 优化 越 来 越 棒 ， 


还 加 了 越 来 越 多 的 新 特性 。 我 相信 ， 本 书 的 第 一 版 也 为 此 做 了 小 小 的 页 
BR, AEA at ak IE WU RETA SAAS PE, FREE SR Er AM 
Larry 和 了 Perl Porters group， 为 改进 提供 了 反馈 。 

后 来 添加 的 新 特性 包括 刻 序 环视 功能 C60) ,“ 固 化 ?分 组 
(“atomic” groupings 139) ， 和 Unicode 文 持 。 新 深 加 的 条 件 判断 结构 
更 是 把 正则 表达 陈 提 升 到 了 一 个 新 的 层次 〈 画 140) ， 它 容许 用 户 在 正 
则 表达 陈 中 进行 让 then-else 的 条 件 判 新 和 控制 。 如 果 这 些 还 不 够 强大 的 
话 ， 新 的 结构 甚 全 容许 程序 员 在 正则 表达 式 中 运行 Perl 代码 ， 正 则 表达 
式 和 程序 代码 之 间 的 界限 已 经 不 复 存 在 了 (327) 。 本 书 中 使 用 的 
Perl 的 版 本 为 5.8.8。 

流派 的 部 分 整合 
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文本 处 理 ， 而 Web 页 的 生成 其 实 正 是 文本 处 理 ， 所 以 Perl 迅 速成 为 了 开 
发 Web 程 序 有 的 语言 。Perl 广 受 欢 迎 ， 其 中 强大 的 正则 流派 也 是 如 此 。 

其 他 语言 的 开 友 人 员 当 然 不 会 视而不见 ， 最 终 在 条 种 程度 上 “兼容 
Perl” (Perl compatible) 的 正则 表达 陈 包 出 现 了 。Tcl、Python、.NET、 
Ruby、PHP、C/C++ 都 有 各 目的 正则 表达 式 包 ，Java 语 言 中 还 有 多 个 正 
则 表达 式 包 。 

男 一 种 形式 的 整合 始 于 1997 年 ( 潍 巧 的 是 ， 本 书 的 第 一 版 也 在 当年 
面世 ) ， 当 时 Philip Hazel 开 发 了 PCRE， 这 是 一 套 兼 容 Perl 正 则 表达 式 的 
库 ，PCRE 的 正则 引擎 质量 很 高 ， 全 面 仿 制 Perl 的 正则 表达 式 的 语法 和 
语义 。 其 他 的 开发 人 员 可 以 把 PCRE 整合 到 自己 的 工具 和 语言 中 ， 为 用 
尸 提 供 直 是 而 且 极 上 其 表现 为 (也 是 众所周知 〉 的 各 种 正则 功能 。 许 多 沈 
行 的 软件 都 使 用 了 PCRE， 例 如 PHP、Apache 2. Exim, Postfix#ll 
Nmap (78) . 

本 书 对 应 的 版 本 

表 3-2 列 出 了 本 书 中 使 用 的 工具 和 库 的 版 本 信息 。 更 老 的 版 本 可 能 
功能 更 少 ，bug 更 多 ， 狐 的 版 本 则 会 提供 更 多 的 特性 ， 并 修正 之 前 的 
bug 〈 当 然 也 可 能 多 出 新 的 bug) 。 

表 3-2: 本 书 中 提 到 的 一 些 工 具 的 版 本 











GNU awk 3.1 java.util.regex (JDK 1.5, 4" 5.0) Procmail 3.22 


GNU egrep/grep 2.5.1 | NET Framework 2.0 Python 2.3.5 
GNU Emacs 21.3.1 PCRE 6.6 Ruby 1.8.4 
flex 2.5.31 Perl 5.8.8 GNU sed 4.0.7 
MySQL 5.1 PHP (preg routine) 5.1.4/4.4.3 Tel 8.4 
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At a Glance 

我 们 用 一 张 表格 来 比较 第 见 工具 软件 在 几 方面 的 功能 ， 以 便 理 解 仍 
然 存 在 的 差异 。 表 3-3 提 供 了 若干 工具 软件 的 正则 表达 式 所 属 流 派 在 各 
方面 的 简要 信息 。 

其 他 书籍 通 营 在 比较 各 蒜 工 具 软 件 时 ， 也 会 包含 表 3-3 之 类 的 表 
格 。 但 是 ， 这 张 表 只 是 冰山 一 角 一 -一列 出 的 每 一 种 特性 的 背后 ， 都 有 许 
多 重要 的 知识 。 

最 重要 的 是 程序 会 不 断 变 化 。 举 例 来 说 ，Tcl 以 前 是 不 文 持 反 同 引 
用 和 单词 分 界 符 的， 但 是 现在 支持 。 最 开始 ， 用 来 表示 单词 分 界 从 的 是 
难看 的 [: <: ME >: ]， 至 今 仍 是 这 样 ， 尽 管 这 种 表示 法 已 经 废 
A 取代 它 的 是 后 来 添加 的 m、\M 和 \y (单词 起 始 、 单 词 结束 ， 或 者 两 

EJE) o 

同样 ，grep 和 egrep 并 没有 单一 的 作者 ， 只 要 愿意 ， 任 何人 都 可 以 开 
发 ， 也 能 修改 到 符合 到 作者 期 望 的 任何 流派 。 人 人 都 布 望 按照 目 己 的 总 
愿 来 ， 人 性 就 是 如 此 例如， 许多 营 用 工具 的 GNU 版 本 ， 比 其 他 版 本 更 
ENK, EEIE) o 


表 3-3: 苦于 常用 工具 的 Flavor 的 (非常 简要 考察 
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或 许 与 列 出 的 特性 一 样 重 要 的 是 流派 之 间 的 许多 细微 (有 些 并 非 细 
Wi) 差别 。 从 表格 来 看 ，Perl、.NET 和 Java 的 正则 表达 式 似 乎 是 一 样 
的 ， 而 实际 情况 却 远 不 是 这 样 。 针 对 表 ”3-3， 读 者 可 能 提出 的 问题 包 


e 蛙 号 之 关 的 量词 能 含 作 用 于 括号 之 内 的 子 表 达 式 ? 

点 号 能 售 匹 配 换行 符 ? 排除 型 字符 组 能 含 匹配 换行 符 ?” 以 上 两 者 
能 否 匹 配 NUL 字符 ? 

e474 Cine anchor) 是 名 符 其 实 的 吗 〈 例 如 ， 他 们 能 个 识别 目标 
字符 串 内 部 的 换行 符 ) ?它们 算 正 则 表达 式 中 的 基础 级 别 (first-class) 
的 元 字符 吗 ? 还 是 只 能 应 用 在 菜 些 5 构 中 ? 

e 字 付 组 内 部 能 出 现 转 义 字符 吗 ? 字符 组 内 部 还 容许 或 不 容许 出 现 
哪些 字符 ? 

oii a RE IREN? WREE. RENE ERARE (还 有 个 问 
le, RAVES Da SMe) ? 

。 如 果 容许 反 向 引用 ， 在 进行 不 区 分 大 小 写 的 匹配 时 ， 友 回 引 用 能 
顺利 进行 吗 ? 在 极 问 的 情况 下 ， 反 辐 引 用 的 “行为 "有 意义 吗 ? 

e 是 否 可 以 出 现 八 进 制 的 转 义 字符 \123? 如 果 是 ， 怎 么 区 分 它 和 反 
回 引用 呢 ? 十 六 进 制 的 转 义 字符 呢 ? 这 种 文 持 是 正则 引擎 提供 的 ， 还 是 
由 其 他 工具 提供 的 ? 

e\w 只 文 持 数字 和 字符 ， 还 是 包括 其 他 字符 ? Æ 3-3 列 出 的 文 持 
\w 的 工具 对 \w 有 不 同 的 解释 ) 。 不 同 的 单词 分 界 符 元 字符 对 构成 <* 单 词 
分 界 符 ”的 字符 的 定义 不 一 样 ，\w 是 人 否 与 它们 保持 一 致 ? 它们 是 按照 
locale 的 定义 呢 ， 还 ae ? 

即使 表 3-3 这 样 的 介绍 这 样 测 单 ， 我 们 仍然 必须 记得 这 些 问 题 。 如 


果 你 能 意识 到 ， 在 看 起 来 光鲜 的 外 表 下 面 潜 减 看 许多 问题 ， 束 容易 保持 
清醒 的 头脑 来 应 付 它们 。 

在 本 草 开 头 我 们 已 经 提 到 ， 许 多 问题 只 是 语法 的 和 差异， 但 也 有 许多 
并 非 如 些 。 比 方 襄 ， 了 解 到 egrep 的 (JuljJuly〉 在 GNU Emacs 中 必须 与 
成 (JuNJuly\) 之后， 你 或 许 会 认为 所 有 的 问题 都 是 这 样 ， 但 事实 并 
非 如 此 。 在 匹配 尝试 过 程 中 的 语义 差异 (或 者 ， 人 至 少 是 看 起 来 是 在 匹配 
答 试 过 程 中 的 ) 通 第 被 忽视 ， 但 极其 重要 的 问题 是 ， 它 也 解释 了 为 什么 
两 个 看 起 来 一 样 的 表达 式 会 获得 截然 不 同 的 结果 : 一 个 总 是 匹配 Jul’， 
即使 目标 文本 是 ‘July*。 这 些 看 起 来 晤 无 区 别 的 语义 也 解释 了， 为 什么 
两 个 顺序 相反 的 正则 表达 式 : [ Guyu 和 人 Guyu 能 够 取得 
同样 的 匹配 结果 。 其 实 ， 整 个 下 一 草 都 在 讲解 这 类 问题 。 

当然 ， 一 于 工具 软件 能 够 利用 正则 表达 式 实 现 的 功能 ， 通 常 比 它 所 
属 的 正则 流派 更 重要 。 例 如 ， 就 算 Perl 的 正则 表达 式 功能 不 及 egrep， 在 
使 用 正则 表达 陈 时 ，Perl 所 共有 的 简便 性 却 更 有 价值 。 我 们 会 在 本 章 逐 
个 介绍 各 种 特性 ， 并 在 后 面 各 章 深 入 讲解 几 种 编程 语言 。 


正则 表达 式 的 注意 事项 和 处 理 方 式 


Care and Handling of Regular Expressions 

本 和 章 开 头 列 出 的 第 二 点 需要 注意 的 束 是 : 正则 表达 式 的 句法 规则 
(syntactic packaging) ， 它 告诉 应 用 程序 :“ 另 ， 这 儿 有 一 个 正则 表达 
式 ， 我 需要 你 做 这 些 ”。egrep 是 一 个 简单 的 例子 ， 因 为 正则 表达 陈 是 作 
为 命令 行 参 数 传 过 去 的 。 其 他 的 “语法 诀 备 (syntactic sugar) ”， 例 如 我 
在 第 1 革 坚 持 使 用 的 单 引 写 ， 是 因为 考虑 到 shell， 而 个 是 egrep。 复 林 的 
系统 ， 例 如 程序 设计 语言 中 的 正则 表达 式 ， 需 要 更 多 的 包 攻 ， 系 统 才 能 
FA AE YS EE HB op es TEU STAT, ries BE Ay AH TH 

下 一 步 是 考察 我 们 能 够 对 匹配 结果 进行 的 操作 。 同 样 ，egrep 在 这 
方面 很 简单 ， 因 为 它 做 的 都 是 同样 的 事情 〈 显 示 包 含 匹配 文本 的 行 ) ， 
但 是 ， 我 们 在 前 一 章 的 开头 已 经 说 过 ， 真 正 有 意义 的 是 更 复杂 的 操作 。 
其 中 最 基本 的 是 匹配 〈 检 奏 一 个 正则 表达 式 是 否 能 匹配 一 个 字符 串 ， 或 
者 从 字符 串 中 提取 信息 ) ， 以 及 奏 找 和 但 换 ， 根 据 匹 配 的 结果 修改 字符 
串 。 这 些 操作 可 以 以 多 种 形式 进行 ， 不 同 的 语言 对 此 也 有 不 同 的 规定 。 

一 般 来 说 ， 程 序 设 计 语 言 有 3 种 处 理 正 则 表达 去 的 方式 : 集成 式 
(integrated) 、 程 序 式 (procedural) 和 面 问 对 象 式 〈object- 
oriented) 。 在 第 一 种 方式 中 ， 正 则 表达 式 是 百 接 内 建 在 语言 之 中 的 ， 
Perl 束 是 如 些 。 但 是 在 其 他 两 种 方式 中 ， 正 则 表达 式 不 属于 语言 的 低级 
语法 。 相 反 ， 普 通 的 图 数 接收 普通 的 字符 串 ， 把 它们 作为 正则 表达 式 进 
行 处 理 。 由 不 同 的 函数 进行 不 同 的 、 天 系 到 一 个 或 多 个 正则 表达 式 的 操 
作 。 大 多 数 语言 (不 包括 Perl1) 采用 的 都 是 这 两 种 方式 之 一 ， 包 括 
Java, .NET、 Tcl. Python. PHP. Emacs、lisp 和 Ruby。 


集成 式 人 处理 
Integrated Handling 
我 们 已 经 看 过 Perl 的 集成 式 处 理 方法 ， 例 如 第 55 页 的 例子 : 
if (Sline =~ m/^Subject: (.*)/i) 1 





Ssubject = §1; 
} 
为 清楚 起 见 ， 我 用 斜体 标注 变量 名 ， 正 则 表达 式 相 关 的 部 分 则 用 粗 
体 标 注 ， 正 则 表达 式 本 里 用 下 男 线 标注 。Perl 会 把 正则 表达 式 
ASubject: - Cx) ,应 用 到 $line 保存 的 文本 中 ， 如 果 能 够 匹配 ， 则 执行 


下 面 的 程序 段 。 其 中 ， 变 量 $1 代 表 括 号 内 的 子 表达 式 匹 配 的 文本 ， 将 它 
们 赋值 给 $subject。 

男 一 个 集成 式 处 理 的 例子 是 把 正则 表达 式 作 为 配置 文件 的 一 部 分 ， 
例如 procmail (Unix 下 的 一 个 邮件 处 理 程 序 ) 。 在 配置 文件 中 ， 正 则 表 
达 式 用 于 将 邮件 信息 发 布 到 对 应 的 处 理 程 序 中 。 这 个 例子 比 Perl 更 简 
单 ， 因 为 不 需要 指明 操作 对 象 〈 邮 件 信 息 ) 。 

这 两 个 例子 背后 的 原理 要 复杂 一 些 。 集 成 式 处 理 方 法 减轻 了 程序 员 
的 负担 ， 因 为 它 隐藏 了 一 些 工 作 ， 例 如 正则 表达 式 的 预 处 理 ， 准 备 罗 
配 ， 应 用 正则 表达 式 ， 返 回 结 果 。 省 略 这 些 操作 减轻 了 稼 见 任务 的 完成 
难度 ， 个 过 我 们 之 后 将 会 看 到 ， 有 些 情况 下， 这样 处 理 反 而 更 慢 ， 更 复 
AR o 
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程序 式 处 理 和 和 面 同 对 象 式 处 理 


Procedural and Object-Oriented Handling 
程序 式 处 理 和 面 同 对 象 式 处 理 非常 相似 。 这 两 种 方式 下 ， 正 则 功能 
不 是 由 内 建 的 操作 符 来 提供 ， 而 是 由 普通 函数 (水 数 式 ) 或 构造 函数 及 
方法 〈 面 同 对 象 式 ) 来 提供 的 。 这 种 情况 下 ， 并 没有 专属 于 正则 表达 式 
的 操作 符 ， 只 有 平 音 的 字符 串 ， 普 通 的 函数 、 构 造 亢 数 和 方法 把 这 些 字 
从 串 作 为 正则 表达 式 来 处 理 。 
下 面 几 节 给 出 了 几 个 Java、VB.NET、PHP 和 Python 的 例子 。 
Java 中 的 正则 处 理 
现在 来 看 “Subject” 例 子 在 Java 中 的 实现 方式 ， 使 用 Sun 提 供 的 
java.utilregex 包 《第 8 草 详 细 介 绍 Java) 。 
import java.util.regex.*; // 这 样 使 用 regex 包 中 的 类 更 加 容易 
0 Pattern r = Pattern.compile("(Sujbcet: (.*), Pattern.CASE INSENSITIVE) ; 
e Matcher m = r.matcher (line); 
+ if (m.find()) { 
+ subject = m.group (1); 
} 
RAHARUHI REA, AERE ERAAI, AE 
线 标注 正则 表达 陈 本 喘 。 准 确 地 说 ， 古 用 下 男 线 标注 表示 作为 正则 表达 
式 处 理 的 普通 的 字符 串 。 


这 个 类 说 明了 面 癌 对 象 式 处 理 方法 ， 它 使 用 Sun 捉 供 的 
java.util.regex 包 的 两 个 其 一 一 Pattern 和 Matcher。 其 中 执行 的 操作 有 : 

0 检查 正则 表达 式 ， 将 它 编 译 为 能 进行 不 区 分 大 小 匹配 的 内 部 形式 
(internal form) ， 得 到 一 个 “Pattern” 对 象 。 

o 将 它 与 僻 风 配 的 文本 联系 起 来 ， 得 到 一 个 “Matcher” 对 象 。 

应 用 这 个 正则 表达 式 ， 检 查 之 前 与 之 建立 联系 的 文本 ， 是 人 耕 存 在 
PLAC, REAR. 

z 如 果 和 存在 岂 配 ， 提 取 第 一 个 捕获 括号 内 的 子 表 达 式 区 配 的 文本 。 
任何 使 用 正则 表达 式 的 语言 都 需要 进行 这 些 操 作 ， 或 是 最 取 的 
Cexplicitly) 或 是 隐 陈 的 Cimplicitly) 。Perl 际 首 了 大 多 数 细 有 ，Java 的 

实现 方式 则 骏 露 这 些 细 和 。 

卫 数 式 处 理 的 例子 。 不 过 ，Java 也 提供 了 一 些 函 数 式 处 理 的 “便捷 
PKŠ (convenience functions) ”来 节省 工作 量 。 有 用户 不 再 需要 首先 声称 
一 个 正则 表达 式 对 象 ， 然 后 使 用 该 对 象 的 方法 来 操作 。 下 面 的 静态 函数 
提供 了 临时 对 象 ， 执 行 完 之 后 ， 这 些 对 象 束 会 被 日 动 抛弃 。 这 个 例子 用 
X Mm HA Pattern.matches (...) RAŽ: 

if {1 Pattern.matches ("\\s*", line) ) 
{ 

AO sx: WA Dine tae oa 
} 

XP PRIA LR SS BLA A... 的 正则 表达 式 ， 人 返回 一 个 Boolean 
值 ， 说 明 它 是 个 能 够 匹配 输入 的 字符 串 。Sun 的 package 同 时 提供 程序 却 
和 面 癌 对 象 式 的 处 理 方 式 是 常见 的 做 法 。 两 种 接口 的 兰 别 在 于 便捷 程度 
(程序 式 处 理 方式 在 完成 简单 任务 时 更 容易 ， 但 处 理 复杂 任务 则 很 及 
烦 ) 、 功 能 (程序 式 处 理 方 式 的 功能 和 选项 通常 比 对 应 的 面 同 对 象 式 的 
BD) 和 效率 《在 任何 情况 下 ， 两 医 处 理 方 式 的 效率 都 不 同 POR 
详细 论述 这 个 问题 ) 。 

Sun 有 时 也 会 把 正则 表达 式 整 合 到 Java 的 其 他 部 分 ， 例 如 上 面 的 例 
子 可 以 使 用 string 类 的 matches 功 能 来 完成 








if (! line.matches("\\s*", )) 
{ 
// ... 如 果 line 不 是 空 行 . . . 


} 
同样 ， 这 种 办 法 不 如 合理 使 用 面向 对 象 的 程序 有 效率 ， 所 以 不 适宜 
在 对 时 间 要 求 很 高 的 循环 中 使 用 ， 但 是 “随手 Casual) “ALAS 
F. 


VB 和 .NET 语 言 中 的 正则 处 理 
尽管 所 有 的 正则 引擎 都 能 执行 同样 的 基本 操作 ， 但 即使 是 采用 同样 
方法 的 各 种 实现 方式 〈implementation ) 提供 给 程序 员 完 成 的 任务 ， 以 
及 使 用 服务 的 方式 也 各 有 不 同 。 下 和 面 是 VB.NET 中 的 “Subject” 例 子 
(CNET 在 第 9 草 详细 论述 ) : 
Imports System.Text.RegularExpressions ' 这 样 访问 正则 表达 式 的 类 会 更 方便 


Dim R as Regex = New Regex(" Subject: (.*)", RegexOptions.IgnoreCase) 
Dim M as Match = R.Match (line) 
If M.Success 
subject = M.Groups(1).Value 
End If 
忌 的 来 说 ， 它 很 类 似 Java 的 例子 ， 只 古 .NET 将 第 和 第 : 步 结 合 为 一 
步 ， 第 # 步 需要 一 个 确定 的 值 。 为 什么 会 有 这 样 的 差异 ? 两 者 并 没有 本 
质 上 的 优 务 之 分 一 一 只 是 开 友 人 员 末 用 了 自己 当时 先 得 最 好 的 方式 〈 稍 
后 我 们 会 看 到 这 点 ) 。 
NET 同样 提供 了 若干 程序 式 处 理 的 函数 。 下 面 的 代码 用 于 判断 空 





行 : 
If Not Regex.IsMatch(Line, "*\s*S") Then 
(oo... W line RHPA... 
Ena LE 
Java 的 Pattern.matches 函 数 会 自动 在 正则 表达 式 两 端 添 加 个...$ ， 
做 软 则 提供 了 更 为 一 版 的 函数 。 Java 的 做 法 只 是 对 核心 对 象 的 简单 包 
装 ， 但 程序 员 和 需要 使 用 的 字符 和 变量 更 少 ， 而 代价 只 是 一 点 点 性 能 
降 。 
PHP 中 的 正则 处 理 
FAE HPHP H pree EFP AIE URIA R RAe Subject 的 例 
子 ， 这 是 纯 炽 的 函数 式 方法 〈 第 10 章 详细 介绍 PHP) 。 





if (preg match('/*Subject: (.*)/i', $line, Smatches) ) 
Subject = $smatches[1]; 
Python 中 的 正则 处 理 


最 后 我 们 来 看 Python 中 ,Subject 的 例子 ，Python 采 用 的 也 是 面向 对 
象 式 的 办 法 。 


import re; 





R = re.compile("“Subject: (.*)", re.IGNORECASE) ; 
M = R.search (line) 
Lt M: 


subject = M.group (1) 

这 个 例子 与 我 们 之 前 看 过 的 非常 类 似 。 

Fe FFM AA] TM OR 

为 什么 不 同 的 语言 及 用 不 同 的 办 法 呢 ? 可 能 有 语言 本 里 的 原因 ， 不 
过 最 单 要 的 因 系 偿 古 正则 软件 包 的 开 友 人 员 的 思维 和 技术 水 准 。 举 例 来 
it, Java 有 许多 正则 表达 式 包 ， 因 为 这 些 作者 部 布 望 近 供 Sun 未 提供 的 
功能 。 每 个 包 都 有 目 己 的 踢 项 和 弱项 ， 不 过 有 趣 的 是 ， 每 个 软件 包 的 功 
能 设 定 都 不 一 样 ， 所 以 Sun 最 终 决 定 自己 提供 正则 表达 式 包 。 

男 一 个 关于 这 种 差异 的 例子 是 PHP, PH 包含 了 三 种 完全 独立 的 
正则 引擎 ， 每 一 种 都 对 应 一 套 目 己 的 函数 。PHP 的 开 友 人 员 在 开 友 过 程 
中 ， 因 为 对 原 有 的 功能 不 满意 ， 读 加 新 的 软件 包 和 对 应 的 接口 函数 套件 
来 升级 PHP 核心 《一般 认为 ， 本 书 讲解 的 "preg” 套 件 是 最 优秀 的 ) 。 


ARME TR 


A Search-and-Replace Example 
“Subject” HI AFRE, IBA EDA SPT IE ZA Ae TEAS 
ok 它 进 一 步 揭 示 了 不 同 处 理 方式 在 设计 上 的 
Zc. JF o 
ER — E, RIAR y EPer HAH ERAM B E-mail Hob fet 
为 超 链接 的 例子 (二 73) : 
Stext =~ st 
\b 
# 把 捕获 的 地 址 保存 到 $1 ... 
( 


\w[-.\w] * # username 


G 


[-\w]+(\.[-\w]+) *\. (com|edu|info) # hostname 
) 
\b 
}{<a href="mailto:$1">$1</a>}gix; 


Perl 的 得 找 和 和 伏 换 操作 符 是 “ 原 地 生效 "的 ， 也 束 是 次 ， 符 换 会 在 目 


标 变 量 上 进行 。 其 他 大 多 数 语言 的 谷 换 都 是 在 目标 文本 的 副本 上 进行 
的 。 如 末 不 需要 修改 原 变 量 ， 这 样 操作 残 很 方便 ， 不 过 如 末 需 要 修改 原 
eee, WEE SRG RE eee. PZ SEIT. 
Java! Hy Æ ERA E Hh 
FAH Sunte fey java.util regex Hír A R-B HRY Bl : 
import java.util.regex.*; // 一 次 性 导入 所 有 需要 用 到 的 类 


Pattern r = Pattern.compile ( 


"\\b igp 
"E 把 捕获 的 地 址 保存 到 $1 ，.， ry 
E Vi" + 
"  \A\wE-.\\w] * # username wi 
" g Vie 
"  [-\\w] +(\\. [-\\w] +) *\\. (com|edu| info) # hostname \n"+ 
ni Yai’ + 
"\\b ‘ai 


Pattern. CASE INSENSITIVE | Pattern .COMMENTS) ; 
Matcher m = r.matcher (text); 
text = m.replaceAll("<a href=\"mailto:$1\">$1</a>") ; 


TATE, FIRR RESAVA EIV, MA, GOR TR AS 
例 中 一 样 用 文本 字符 串 来 生成 正则 表达 式 ， \w WAAS Aw o Œi 
iY, System.out.println (r.pattern () ) 可 以 显示 正则 函数 确切 接收 到 
的 正则 表达 式 。 我 在 这 个 正则 表达 式 中 包括 换行 往 的 原因 是 ， 这 样 看 起 
来 很 清楚 。 男 一 个 原因 是 ， 每 个 # 引入 一 段 注 释 ， 直 到 该 行 结束 ， 所 
以 ， 为 了 约束 注释 ， 必 须 设 定 某 些 换行 符 。 

Perl 使 用 /g、 人 外 、 人 MX 之 次 的 符号 来 表示 特殊 的 条 件 《〈 这 些 修 饰 符 分 别 
代表 全 局 玲 换 、 不 区 分 大 小 写 和 壳 松 排列 模式 过 135) ，java.util.regex 
则 使 用 不 同 的 函数 〈replaceAl 而 不 是 replace) ， 以 及 给 函数 传递 不 同 的 
标志 位 Cag) 参数 (例如 Pattern.CASE_INSENSITIVE 和 
Pattern.COMMENTS ) 来 实现 。 


VB.NET F MARM H fh 
VB.NETI 的 程序 与 Java 的 类 似 : 


Dim R As Regex = New Regex _ 


" [-\w]+(\. [-\w]+)*\. (com|edu]info) (?# hostname) ii 


("1E "& 
" (24 将 捕获 的 地 址 保存 到 SI... ) 了 
a a: 
* Vw sw] (?# username) "Go | 
" @ " & 

& 

& 


TG a B 
RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


text = R.Replace(text, "<a href=""mailto:${1}"">${1}</a>") 


因为 VB.NET 的 字符 串 文 字 (literal) 不 便于 操作 (它们 不 能 跨越 多 
行 ， 也 很 难 在 其 中 加 入 换行 符 ) ， 长 一 点 的 正则 表达 式 使 用 起 来 不 如 其 
他 语言 方便 。 万 一 方面 ， 因 为 沪 不 是 YB.NET 中 的 字符 串 的 元 字符 ， 这 
个 表达 式 看 起 来 要 更 清楚 些 。 双 引号 是 VB.NET SAR PMC, A 
了 表示 这 个 字符 ， 我 们 必须 使 用 两 个 宁 摊 着 的 双 引 号 。 
PHPH HERRA E 
下 面 征 PHP 中 的 查找 和 苦 换 的 例子 : 
?text = preg replace('{ 
\b 
# 把 捕获 的 地 址 保存 到 $1 ... 
人 


\w[-.\w] * # username 
@ 
[-\w]+(\. [-\w]+) *\. (com|edu|info) # hostname 
\b 
pix’, 
'<a href="mailto:$1">$1</a>', # replacement 字符 串 
Stext); 


就 像 Java AIVB.NET 一样， 查找 和 蔡 换 操作 的 结果 必须 回 传 给 
$text， 除 去 这 一 点 ， 这 个 例子 和 Perl 的 很 相似 。 


其 他 语言 中 的 得 找 和 和 丛 换 


9earch and Replace in Other Languages 


下 面 我 们 简要 看 看 其 他 传统 工具 软件 和 语言 中 得 找 和 葵 换 的 例子 。 


Awk 
Awk 使 用 的 是 集成 式 处 理 方法 ，/regex/， 来 匹配 当前 的 输入 行 ， 使 
“var 一 .来 匹配 其 他 数据 。 你 可 以 在 Perl 中 看 到 这 种 匹配 表示 法 的 

影子 (不 过 ，Perl 的 蔡 换 操作 符 模 仿 的 是 sed) 。Awk 的 早期 版 本 不 支持 
正则 表达 陈 蔡 换 ， 不 过 现在 的 版 本 提供 了 sub C...) 操作 符 。 

sub(/mizpel/, " misspell " ) 

它 会 把 正则 表达 式 mizpel 应 用 到 当前 行 ， 将 第 一 个 匹配 将 换 为 
misspel。 请 注意 ， 在 Perl 《和 sed) 中 的 对 应 做 法 是 smizpelmisspell/。 

如 采 要 对 该 行 的 所 有 匹配 文本 进行 符 换 ，Awk 使 用 的 不 是 /g 修 饰 
符 ， 而 是 另 一 个 运算 人 符 : gsub (/mizpel/, “misspell”) 。 

Tcl 

Toh WY cE FE CURE IE, OO NAST cl H A] (quoting 
conventions) 的 人 来 说 可 能 很 迷惑 。 如 末 我 们 要 在 Ta 中 修正 错误 的 拼 
与 ， 可 以 这 样 : 


regsub mizpel Svar misspell newvar 


Eh Bt evar FEF, JE mizpel 的 第 一 处 匹配 答 换 为 
misspell， 把 瞧 换 后 的 字符 串 存 入 变量 ”newvar( 这 个 变量 并 没有 以 $ 开 
K). TA ”接收 的 第 一 个 参数 是 正则 表达 式 ， 第 二 个 参数 是 目标 字符 
串 ， 第 三 个 是 ”replacement 字符 串 ， 第 四 个 是 目标 变量 的 名 字 。Tcl 的 
regsub 同 样 可 以 接收 可 能 出 现 的 标志 位 ， 例 如 -al 用 来 进行 全 局 替换 ， 而 
不 是 只 答 换 第 一 处 匹配 文本 。 


regsub -all mizpel, Svar misspell newvar 


同样 ，-nocase 选 项 告诉 正则 引擎 进行 不 区 分 大 小 写 的 匹配 〈 它 等 于 
egrep 的 -i 参数 ， 或 者 Perl 的 /i 修饰 从 〉。 

GNU Emacs 

GNU Emacs (下 文中 简称 Emacs) 是 功能 强大 的 文本 编辑 器 ， 它 可 
以 使 用 elisp (Emacs lisp) 作为 内 建 的 编程 语言 。 它 提供 了 正则 表达 式 
的 程序 式 处 理 接 口 ， 以 及 数量 众多 的 函数 来 提供 各 种 服务 。 其 中 主要 的 
一 种 是 “正则 表达 式 搜 索 - 前 进 (re-search-forward) ”， 接 收 参 数 为 普通 
字符 串 ， 将 它 作 为 正则 表达 式 来 处 理 。 然 后 从 文本 的 “当前 位 置 > 开 始 搜 
系 ， 直 到 第 一 处 匹配 发 生 ， 或 者 如 果 没 有 匹配 ， 台 一 直 前 进 到 字符 串 的 
KÆ CAP val Fs oe as ERARI (regexp search) ”的 功能 
H 轩 ， 束 会 执行 re-search-forward)。 

如 表 3-3 C92) HZR, Emacs 所 属 的 正则 流派 严重 依赖 反 斜 线 。 





Plt, \<\ a-z \ Cfn\t\\<[A>]+>\) AN> 是 查找 重复 单词 的 
表达 式 ， 可 以 用 来 解决 第 1 半 的 问题 。 但 我 们 不 能 直接 使 用 这 个 正则 表 
达 式 ， 因 为 Emacs 的 正则 引 敬 不 能 识别 t 和 和 nn。 不 过 Emacs 中 的 双 引 号 字 
从 串 则 可 以 ， 它 会 把 这 些 标记 转换 为 我 们 需要 的 制 表 和 从 和 换行 他， 传 给 
正则 引 敬 。 在 使 用 普通 字符 串 提 交 正 则 表达 式 时 ， 非 常 有 用 。 但 其 缺陷 
尤其 古 elisp 的 正则 表达 式 的 缺陷 一 一 在 于 ， 此 流派 过 分 依赖 反 斜 线 
了 ， 最 终 得 到 的 正则 表达 式 好 像 插 满 了 了 牙签。 下 面 古 合 找 下 一 组 单 复 蛙 
词 的 函数 : 
(defun FindNextDbl () 
"move to next doubled word, ignoring 《”> tags" (interactive) 
(re-search-forward "\\<\\[a-z]+\\)\\({\n \t}\\I<[*>] +>\\) 4\VI\A\3") 
) 


这 段 程序 加 上 (define-key global-map " \C-x\C-d " 'FindNextDbl) ， 
束 可 以 使 用 “Control-x+Control-d” 来 迅速 查找 重复 蛙 词 了 。 


注意 事项 和 处 理 方式 : 小 结 


Care and Handling:Summary 

RNC AS, KAIRE, ABE PLB IR 2 © MAR KAN aE x 
语言 ， 可 能 现在 还 有 些 困 惑 。 不 过 请 个 必 担 心 。 学 习 任 何 特定 的 工 其 软 
件 都 比 学 习 原 理 要 容易 。 
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Strings,Character Encodings,and Modes 

在 深入 讲解 遇见 的 各 疾 元 字符 之 前 ， 还 需要 了 解 一 些 重 要 的 问题 : 
(EA LEM AAU PFT EB FI SS AE AC EK 

这 些 概 念 并 不 复杂 ， 在 理论 和 实践 中 都 是 如 此 。 不 过 ， 对 其 中 的 大 
多 数 来 说， 因为 各 种 实现 方式 之 则 和 存在 细小 到 腊 ， 我 们 很 难 预 先知 道 它 
们 准确 的 实际 使 用 方式 。 下 一 市 涵盖 了 右 干 你 将 面 对 的 第 见 问 题 ， 以 及 
一 些 复杂 的 问题 。 


作为 正则 表达 式 的 字符 串 


Strings as Regular Expressions 

这 个 概念 并 不 复杂 : 对 除 Perl、awk、sed 之 外 的 大 多 数 语言 来 说 ， 
正则 引擎 接 收 的 是 以 普通 字符 串 形式 提供 的 正则 表达 式 ， 这 些 字 从 串 文 
字 类 似 “^From: Cx)”. 对 大 多 数 程序 员 ， 尤 其 新 入 行 的 程序 员 来 
说 ， 有 一 点 难以 理解 : 在 构造 作为 正则 表达 式 的 字符 串 时 ， 他 们 还 需要 
留意 编程 语言 定义 的 字符 串 元 字符 。 

每 种 语言 的 字符 串 文 衬 都 规定 了 目 己 的 元 字符 ， 有 些 语言 长 全 包含 
多 种 字符 串 文字 ， 所 以 不 存在 普 适 性 的 规则， 不 过 背后 的 概 仿古 一 样 
的 。 许 多 语言 的 字符 昌文 字 能 够 识别 转 义 序列 ， 例 如 \t、N 和 \x2A， 在 生 
成 字符 串 对 应 的 数据 时 ， 会 正确 地 解释 这 些 记 和 与。 与 正则 表达 式 相 关 的 
最 第 见 的 一 反 束 是 ， 在 字符 串 文 学 中 ， 必 须 使 用 两 个 紧 控 在 一 起 的 反 冬 
线 才 能 表示 正则 表达 式 中 的 反 斜 线 。 例 如 ， 为 了 表示 正则 表达 式 中 的 
站 ， 必 须 在 字符 串 中 使 用 " Wn" 。 

如 果 志 了 添加 反 斜 线 ， 而 只 是 使 用 "mn " ， 在 大 多 数 语 言 中 ， 结 于 
加 恰好 等 于 (译注 2) 。 不 过 ， 事 实 上 ， 如 果 正 则 表达 式 是 宽松 排 


列 格式 的 /x 类 型 ， 加 被 解释 为 空 ，m 仍然 留 在 正则 表达 式 中 ， 匹 配 一 
个 空 行 。 态 记 这 一 点 的 程序 员 真 该 打 。 下 面 的 表 3-4 列 出 了 一 些 包 括 \t 和 和 
x2A QA x SASCHA) 的 例子 。 表 格 中 的 第 二 对 例子 展示 
了 忽略 字符 串 文 字 元 字符 会 导致 的 意外 绪 

43-4: SRP AB CEN a I 


字符 囊 文 字 。 |“[\t\x2a]”|“[\Nt\Nx2a]”| “\e\xza” | “NtNw2R 
字符 事 的 值 “T\t\x2a] ‘\t\x2a 
作为 正则 表达 式 \t\x2a 
能 够 匹配 星 号 或 制 表 符 | 星 号 或 制 表 待 | 任意 数目 的 制 表 符 WAHREN 
在 /X 模式 下 Zara RA ETAWAH “| 错误 fill RAF AO ZG EF 
| va NIA, TARR OCS MI, ARO A eA BIE V BAN 
FFF. PIU, VB.NETHIS TR CFE AA TUFF, MENAI ro F 
HNA SLAs a a APC. Tove NE MAY, RIEA 
Ab AS BE RUA EE SEES BS SB ADR Za, TEV | Ee 
的 是 什么 ? ” 

Java hj ZF 
o Java WF RIR EMERARA, EMEARI FERNE KRE 
TFA. SALINE, BN RE Am? GRIT 
AP). NV RRRA) APR EB FAH SUL RR LERN PS OM OPP] 
会 出 错 。 

VB.NET 的 字符 串 

VB.NET 中 的 字符 串 同 样 是 由 双 引 生 标 注 的 ， 不 过 它们 与 Java 的 抒 
符 串 有 很 大 差别 。VB.NET 的 字符 串 只 能 识别 一 个 元 字符 : 两 个 连续 的 
双 引 号 ， 代 表 字 符 串 中 的 双 引 号 。 例 如 " he said" "hi" "\." 的 值 就 是 
he said " hi " \. o 

CHA SAF 

尽管 微软 的 .NET Framework 中 所 有 语言 在 内 部 共享 同一 台 正 则 相 
E, BAUE EURENT ENAS HANME. RINE, Visual 
Basich FIFS SCE BZA, CHER AAMKE RIE 
文字 。 

CHM AS SCAU RLS Sere, AeA" " 而 不 是 





a KERRAN 5. Ait, CH HSH SREZA (verbatim 
strings) ” G73) ， 其 形式 为 @" ..." . BÆTT EDREIRA NLR 


序列 ， 不 过 其 中 也 有 一 个 特殊 的 转 义 序列 : 一 对 双 引 号 表示 目标 字符 串 
中 的 一 个 双 引 号。 也 就 是 说 ， 你 可 以 使 用 " NtNxX2A "或 者 @ " \t\x2A" 
来 生成 \tx2A, 。 因 为 这 种 方式 很 测 单 ， 一 般 都 用 @ " .…… " 的 原生 字符 
串 来 表示 正则 表达 式 。 

PHP 的 字符 串 

PHP 也 提供 了 两 种 类 型 的 字符 串 ， 不 过 无 一 与 C 夫 中 的 相同 。 在 


PHP 的 双 引 号 字符 串 中 可 以 使 用 利 见 的 反 和 斜 线 序列 一 一 例如 An: ， 但 也 
可 以 像 Perl 那样 进行 变量 插值 C77) ， 还 可 以 使 用 特殊 的 序列 {...}， 
把 执行 花 括 号 内 代码 的 执行 结果 插入 字符 串 。 

PHP 的 双 引 号 字符 串 的 独特 性 在 于 ， 你 可 能 倾 回 于 在 正则 表达 式 中 
加 入 多 余 的 反 和 斜 线 ， 不 过 PHP 的 另 一 种 特性 能 够 缓解 这 种 现象 。 对 Java 
和 和 C# 的 字符 串 文 字 来 说 ， 字 人 符 串 中 如 果 出 现 不 能 明确 识别 为 特殊 字符 
的 反 斜 线 序列 会 导致 错误 ， 而 在 PHP 的 双 引 号 字符 串 中 ， 这 种 序列 会 原 
封 不 动 地 从 字符 串 中 传 过 来 。PHP 的 字符 串 能 够 识别 t， 所 以 你 需要 
用 “来 表示 \t ， 不 过 如 果 使 用 Aw”， 我 们 仍然 得 到 \w ， 因 为 \w 不 属 
于 PHP 的 字符 串 能 够 识别 的 转 义 序列 。 这 个 额外 的 特性 ， 虽 然 有 时 候 很 
顺手 ， 也 增加 了 PHP 双 引号 字符 串 的 复杂 程度 ， 所 以 PHP 提 供 了 更 加 简 
单 的 单 引 号 字符 串 。 

PHP 的 单 引 号 字符 串 类 似 VB.NET 字 符 串 和 C 夫 的 @ " .… " 字符 串 ， 
都 属于 “格式 整齐 的 〈unclut-tered) ”字符 串 ， 不 过 稍 有 不 同 。 在 PHP 的 
单 引 号 字符 串 中 ，\' 表 示 单 引号 ，\\ 表 示 肥 斜 线 。 任 何其 他 字符 (包括 任 
fry BRAG) 都 不 会 被 识别 为 特殊 字符 ， 而 会 被 当 作 字符 的 值 。 也 吏 是 
说 ，\NtX2A' 创 建 \Nx2A 。 因 为 单 引 号 字符 串 很 简单 ， 用 和 它 来 表示 PHP 的 
正则 表达 式 非 党 方便 。 

PHP 的 单 引 写字 符 串 在 第 10 半 有 评 细 讲解 (5445) 。 

Python 的 字符 串 

Python 提供 了 好 几 种 字符 串 文字 。 单 引号 和 双 引 号 都 可 以 用 来 创建 
字符 串 ， 不 过 与 PHP 不 同 的 是 ， 这 两 种 方法 没有 区 别 。Python 也 提供 
了 *“ 王 重 引用 Ctriple-quoted) ”的 字符 串 ， 也 束 是 ".……" 或 者 " nh 
" ， 它 们 可 以 包含 未 转 义 的 换行 符 。 这 4 种 类 型 都 支持 常用 的 反 斜 线 序 
列 ， 例 如 \n， 不 过 和 PHP 一 样 ， 它 们 也 会 把 不 能 识别 的 反 和 斜 线 序列 作为 
纯 字 符 序 列 来 对 待 。 而 在 Java 和 C# 中， 这 些 序 列 会 被 出 错 。 

与 PHP 和 C# 一 样 ，Python 也 提供 了 男 一 种 字符 串 文 字 ， 世 束 是 “ 原 
TIFE Craw string) ”。 它 类 似 C# 中 的 @"..."，Python 在 以 上 4 种 
表示 法 前 添加 T 来 表示 纯 字 人 符 串 。 例 如 ，r "txX2A " 表示 "tx2A 。 与 其 
他 语言 不 同 的 是 ， 在 Python 的 原 字 符 串 中 ， 所 有 的 反 冬 线 都 会 保留 ， 
即使 是 用 来 转 义 双 引 号 的 《所 以 双 引 号 可 以 保存 在 字符 串 中 ) 也 是 如 
Ut: r" he said\" hi\"\." #éas ‘he said\" hi\ " \. 在 使 用 正则 表达 式 时 ， 
这 并 不 是 一 个 真正 的 问题 ， 因 为 Python 的 正则 表达 式 流派 把 \" 识别 为 
“" ， 不 过 如 果 你 喜欢 ， 你 可 以 忽略 这 些 细节 ， 使 用 这 4 种 纯 字 符 串 中 
的 任意 一 种 : r'he said "hi" \.'. 

Tcl 中 的 字符 串 


Tcl 与 其 他 语言 都 不 一 样 ， 因 为 它 没 有 真正 的 字符 串 变 量 。 相 反 ， 
命令 行 被 分 解 成 "单词 ?，Tal 的 命令 把 这 些 单 词 作为 字符 捉 、 变 量 名 和 
正则 表达 式 ， 或 者 其 他 适合 的 类 型 。 因 为 命令 行 被 分 解 成 单词 ， 和 常见 的 
肥 冬 线 厅 列 ， 例 如 nn， 能 够 识别 和 转换 ， 而 无 法 识别 的 肥 冬 线 序 列 则 被 
忽略 。 如 果 愿 意 ， 你 可 以 在 单词 两 端 添 加 双 引 号 ， 不 过 这 并 不 是 必须 
的 ， 除 非 中 间 存 在 空格 。 

Tal 同样 也 有 和 类 似 Python 的 纯 字 人 符 串 类 似 的 原 字 人 符 串 类 型 ， 不 过 
Tal 使 用 人 花 括 与 {...}， 而 个 是 r'...'。 在 化 括号 之 则 ， 际 nh 之 外 的 所 有 内 容 
都 会 原封 不 动 地 保存 下 来 ， 所 以 {\tx2A} 表 示 tx2A 。 

tetas ZA, PRA WEA ON SINS Aas. JPEN TES 
WHR REL, ANI BR GE OR FA TE BZA 

Perl 的 正则 表达 式 文 学 

至 今 为 止 ， 我 们 曾 看 到 过 的 Perl 的 例子 中 ， 正 则 表达 式 都 古 以 文学 
方式 提供 的 (“正则 表达 式 文 字 (regular expression literals) ”) 。 不 
过 ， 我 们 也 可 以 用 字符 串 变 量 提交 正则 表达 式 ， 例 如 : 

$str=~m/(\Ww+)/; 


也 可 以 这 样 : 
Sregex = '(\wt)'; 
Sstr =~ Sregex; 
或 者 是 这 样 
Şregex = "(\\wt)"; 
Sstr =~ Sregex; 


(Ait, SERA FE EB AY PES ACK BAIR, 242, 348) 。 
“eee Perle fee ERA PTE 
BJA: 

e 杰 量 插值 〈 把 变量 的 值 写 入 正则 表达 陈 ) 。 

e 通 过 \Q..\E (113) 支持 文字 文本 。 

e 能 够 (optional) 支持 \N{name} 结 构 ， 这 样 就 能 通过 正式 的 
Unicode 名 来 指定 字符 。 例 

如 ，NN{INVERTED EXCLAMATION MARK}Hola! Ae ie VO Ad 
‘iHola!’ 

在 Perl 中 ， 正 则 表达 式 文 字 会 作为 特殊 的 字符 串 进 行 解析 。 实 际 
上 上， 这 些 特 性 在 Perl 双 引号 字符 串 中 也 有 提供 。 必 须 说 明 的 一 点 是 ， 这 
些 特 性 不 是 由 正则 引擎 提供 的 。 因 为 Perl 中 使 用 的 绝 大 多 数 正则 表达 式 
都 是 作为 正则 表达 陈 文 本 的 ， 许 多 人 认为 \Q..、E 属于 Perl 的 正则 表达 


式 语言 ， 不 过 如 果 你 用 正则 表达 式 从 一 个 配置 文件 〈 或 者 命令 行 ) 读 入 
数据 ， 知 道 哪些 特性 是 由 语言 的 哪些 部 分 提供 的 就 很 重要 了 。 
更 多 细节 ， 请 参考 第 7 章 第 288 页 ， 
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Character-Encoding Issues 

字符 编码 是 一 种 号 明 的 共识 ， 它 规定 不 同 数值 的 字 贡 应 该 如 何 解 
RE. FE ASCI ”编码 中 ， 值 为 十 进 制 110 的 字 节 代表 字符 ‘mn?， 不 过 在 
EBCDIC 编 码 中 代表 ‘二 ’*。 为 什么 会 这 样 ? 因为 这 是 由 不 同 的 人 规定 
的 ， 没 有 明确 的 标准 判断 各 种 编码 的 优 务 。 衬 节 的 值 是 一 样 的 ， 不 一 样 
的 是 解释 。 

ASCII 只 定义 了 单个 字 节 能 够 代表 的 所 有 数值 的 一 半 ，ISO-8859-1 
编 僻 〈 通 利 称 为 “Latin-1 编 码 ”) 填 人 种 了 下 面 的 空间 ， 其 中 增加 了 读 首 字 
ff Caccented character) 和 特殊 人 特写 ， 因 而 能 够 补 更 多 的 语言 所 使 用 。 
对 这 种 编码 来 说 ， 值 为 十 进 制 数 234 的 字 节 被 解释 为 e^， 而 在 ASCII 中 
没有 定义 。 

对 我 们 来 说 ， 重 要 的 问题 在 于 : 如 果 我 们 期 户 使 用 某 种 特定 编码 的 
数据 ， 程 序 是 人 否 会 这 样 做 ? 例如， 如 果 我 们 使 用 Latin-1 编 码 中 值 分 别 为 
234、116、101 和 115 的 4 个 字 广 (表示 法 语 单 词 “étes”) ， 我 们 期 望 使 用 
正则 表达 式 ' 作 w+$ 或 者 ,Ab 来 匹配 。 如 果 程 序 中 的 \w 或 者 \b 能 够 支持 
Latin-1=2 47, 束 可 以 正常 工作 ， FRIAS FT 

Fay ta AS) SC RF Re PE 

ty AE ae, “SR REESE PA SOS, OR i ES SY EE 
要 问题 包括 : 

e 程 序 能 够 识别 这 种 编码 吗 ? 

e 程 序 如 何 诀 定 采 用 哪 种 编码 来 处 理 这 些 数据 ? 

e 正 则 表达 式 对 这 种 编码 的 文 持 程度 如 何 ? 

编 伺 的 文 持 程度 包括 奋 干 重要 的 问题 : 

e 古人 否 能 够 文 持 多 字 贡 字符 ?点 号 和 [Ax] 之 类 的 表达 陈 是 匹配 单个 
FF, WPM? 

e\wW、\d4、\s、\b 之 类 的 元 字符 ， 是 否 能 识别 编码 中 的 所 有 字符 ? 例 
如 ， 虽 然 i 也 是 一 个 字符 ，\w 和 \b 能 处 理 吗 ” 

e 程 序 是 个 会 扩展 对 字符 组 的 解释 ? [a-z] Be VLA ê ? 

e 不 区 分 大 小 写 的 匹配 是 否 能 对 所 有 字符 有 效 ? 例如 ，e 和 E 是 否 一 


样 ? 

有 时 候 事 情 不 像 看 起 来 那么 徐 单 。 例 如 ，java.utilLregex 包 的 \b 能 够 
正确 识别 Unicode 中 所 有 与 单词 相关 的 字符 ，\w 则 不 能 〈 它 只 能 匹配 
ASCII 中 的 字符 ) 。 我 们 会 在 本 章 的 其 他 部 分 看 到 更 多 的 例子 。 


Unicode 


Unicode 

Unicode 完 竟 是 什么 ， 似 乎 存在 许多 误解 。 从 最 基本 的 意义 上 说 ， 
Unicode 是 一 组 字符 设 定 ， 或 者 是 从 数字 和 字符 之 间 的 逻辑 映射 的 概念 
编码 。 例 如 ， 韩 语 字符 对 对 应 数字 49，333。 这 个 数值 ， 称 为 一 个 “ 代 
WHA (code point) ”， 通 常用 十 六 进 制 来 表示 ， 以 “U+” 开 涉 。49，333 
换算 成 十 六 进 制 是 COB5， 所 以 全 的 代码 就 是 UrC0B5。 针 对 许多 字符 ， 
Unicode 还 定义 了 “组 属性 ， 例 如 3 是 一 个 数字 ， 而 二 是 与 6 对 应 的 大 写 
字母 。 

目前 ， 我 们 还 没有 谈 到 这 些 数 值 在 计算 机 上 是 如 何 编码 为 数据 的 。 
这 样 的 编码 方式 有 许多 ， 包 括 UCS-2 编 码 (所 有 的 字符 都 占用 两 个 字 
节 ) ，UCS-4 编 码 (所 有 字符 占用 4 个 字 节 ) ，UTF-16 (大 部 分 字符 都 
占用 两 个 字 节 ， 有 一 些 字 符 占 用 4 个 字 节 ) ， 以 及 UTF-8 编 码 〈 用 1 到 6 
个 字 节 来 编码 字符 〉。 具 体 的 程序 内 部 到 确 使 用 哪 种 编码 明 当 不 需要 用 
户 来 关心。 用 户 只 需要 天 心 如 何 将 外 部 数据 《〈 例 如 从 文件 谈 入 的 数据 ) 
从 已 知 的 编码 (ASCII、Latin-1、UTF-8 等 ) 转换 给 具体 的 程序 。 支 持 
Unicode 的 程序 通 彰 提供 了 多 种 编码 和 解 但 程序 来 进行 这 些 转换 。 

支持 Unicode 的 程序 中 的 正则 表达 式 通 第 支持 \unum 元 序列 ， 用 来 内 
配 一 个 具体 的 Unicode 字 和 从 (5117) 。 这 个 数值 通常 是 一 个 4 位 的 十 六 


进 制 数 ， 所 以 WC0B5 表 示人 外 。 一 定 要 弄 清 楚 的 是 ，wC0B5 的 意思 是 “区 
配 编 写 为 Ut+C0B5 的 Unicode 字 人 符 ”， 而 没有 说 具体 需要 比较 哪些 字 市 ， 
因为 具体 的 字 节 是 由 代表 这 个 Unicode 代 码 点 的 编码 方式 在 内 部 决定 
的 。 如 果 程 序 内 部 使 用 的 是 UTF-8 编 码 ， 这 个 字符 就 用 3 个 字 节 表示 。 
不 过 使 用 支持 Unicode 程 序 的 用 户 ， 并 不 需要 关心 这 个 (也 有 时候 需 
要 ， 例 如 使 用 PHP 的 preg 仁 件 和 模式 修饰 从 uw447) 。 

还 有 一 些 你 或 许 需 要 知道 的 相关 知识 .……. 

字符 ， 还 是 组 合 字符 序列 

RARE I” (character) 并 不 都 会 仆 Unicode ”或 者 文 持 
Unicode 的 程序 〈 或 者 正则 引擎 ) 看 作 一 个 字符 。 例 如 ， 有 人 或 许 认 为 


DE eA. (Bee Unicode 中 ， 它 可 能 由 两 个 代码 点 构成 ， 
U+0061 (a) AIGNER (grave accent) U+0300 (') . Unicodefie ft J ¥F 
多 组 合 字 从 (combining character) ， 用 来 修饰 (结合 ) 一 个 基本 字 
件 。 这 会 给 正则 引擎 带 来 些 且 烦 ， 例 如 ， 点 号 是 应 该 匹配 单个 代码 点 
呢 ， 还 是 整个 U+0061 和 U+0300? 

在 实践 中 ， 许 多 程序 似乎 把 “字符 ”和 “代码 点 ” 视 为 等 价 ， 也 就 是 
说 ， 点 号 可 以 匹配 单个 的 代码 点 ， 无 论 是 基本 字符 还 是 组 合 字 符 。 上 所 
以 ，a 《CU+0061 加 上 U+0300) 能 够 由 从 ..$ DLAC, MAGE AS, 。 

Perl 和 PCRE 〈 以 及 PHP 的 preg 套 件 ) 文 持 \X 元 序列 ， 这 样 点 号 CDE 
ere 4 就 能 够 匹配 一 个 结合 了 组 合 字 符 的 基本 字符 。 详 见 第 120 
VR o 

在 支持 Unicode 的 编辑 器 中 输入 正则 表达 式 时 ， 一 定 要 记 住 组 合 字 
AFA Mas GR SAA A, Aa A， 人 被 正则 表达 式 当 
作 ‘A’? 和 “，， 很 可 能 无 法 匹配 字符 串 中 单个 代码 点 表示 的 ”A 下 一 节 讨 
论 单 代码 点 的 情况 ) 。 同 样 ， 对 正则 引擎 来 说 它 是 两 个 不 同 的 字符 ， 上 所 
以 和 [...A...] AES APA USI SAAS, PIL... A...) 。 

同样 ， 如 果 两 个 代码 点 的 字符 一 一 例如 A 一 一 后 面 跟 有 一 个 量词 ， 
量词 作用 的 其 实 是 第 二 个 代码 点 ， 也 就 是 'A?+ 。 

用 多 个 代码 点 表示 同一 个 字符 

从 理论 上 说 ，Unicode 应 该 是 代码 点 和 字符 之 间 的 一 一 映射 (译注 
4) ， 不 过 在 许多 情况 下 ， 一 个 字符 可 能 有 多 种 表现 方式 。 前 一 节 中 我 
们 看 到 ai 可 以 表示 为 U+0061 加 上 U+0300。 不 过 ， 它 也 可 以 用 单个 代码 点 
U+00E0。 为 什么 会 出 现 这 种 情况 ? 是 为 了 保证 Unicode 和 Latin-1 之 间 转 
换 的 和 商 易 性 。 如 果 我 们 有 需要 转换 为 Unicode 的 Latin-1 文 本 ，a 可 能 被 转 
换 为 U+00E0。 不 过 ， 也 可 以 转换 为 U+0061 和 U+0300 的 组 合 。 通 常 ， 这 
种 转换 是 上 自动 的 ， 用 户 无 法 干预 ， 不 过 Sun 的 java.util.regex 包 提供 了 一 
种 特殊 的 匹配 从 ，CANON_EQ， 保证 能 够 由 配 “ 在 规则 中 等 价 
(canonically equivalent) ”的 字符 ， 无 论 它们 在 Unicode 中 使 用 什么 存 
储 方式 (7368) 。 

与 此 相关 的 问题 是 ， 不 同 的 字符 可 能 无 法 从 外 观 上 区 分 ， 如 果 需 要 
检查 生成 的 文本 ， 这 会 带 来 混乱 。 例 如 ， 罗 马 字 母 T (CU+0049) 可 能 
与 [1， 也 就 是 希腊 字母 Iota (U+0399) 混淆 。 这 个 字符 添加 希腊 语 冒 号 
之 后 得 到 1 或 者 1， 编 码 也 增加 到 4 种 CU+00CF; U+03AA; U+0049 
U+0308; U+0399 U+0308) 。 也 残 是 说 ， 如 果 需 要 匹配 1， 你 可 能 需要 
手动 指定 这 4 种 可 能 。 类 似 的 例子 还 有 许多 。 

还 有 许多 单个 字符 看 起 来 不 只 一 个 字符 。 例 如 Unicode 定义 了 一 个 





叫做 “SQUARE HZ” (U+3390) 的 字符 。 这 很 像 两 个 普通 字符 Hz 的 组 合 
(U+0048 U+007A) 。 

尽管 Hz 之 类 的 特殊 字符 的 用 途 在 目前 非常 有 限 ， 但 在 将 来 ， 它 们 的 
应 用 肯定 会 增加 文本 处 理 程 序 的 复杂 性 ， 所 以 在 处 理 Unicode 时 不 应 二 
记 这 些 问 题 。 用 户 可 能 会 期 望 ， 处 理 这 样 的 数据 时 ， 必 须 能 够 处 理 正 党 
空格 (U+0020) 和 非 换 行 空 格 (no-break spaces) (U+00A0) ， 或 许 
还 需要 包括 Unicode 中 其 他 的 成 打 的 空 日 字符 之 中 的 任意 一 个 。 

Unicode 3.1+ 和 U+FFFF 之 后 的 代码 点 

Unicode Version 3.1 诞 生 于 2001 年 中 期 ， 增 加 了 U+EFFFF 之 后 的 代码 
点 《之 前 版 本 的 Unicode 也 文 持 这 些 代码 点 ， 但 是 在 Version 3.1 以 前 ， 它 
们 都 是 没有 定义 的 ) 。 例 如 ,代表 首 乐谱 号 C(Clef〉 的 字符 对 应 代码 
点 U+1D121。 之 前 那些 仅 支 持 低 于 U+FFFF 字 符 的 程序 无 法 处 理 这 种 情 
况 。 大 多 数 程序 的 num 只 能 文 持 最 多 4 位 十 六 进 制 数值。 

能 够 处 理 这 类 新 字符 的 程序 通 间 提供 了 xftnum} 序 列 ，num 可 以 为 
任意 多 位 数字 《〈 这 是 为 了 增强 只 文 持 4 位 数字 的 \unum 表 示 法 ) 。 你 可 以 
使 用 \x{1D121} 来 匹配 这 次“ 谐 亏 C” 之 类 的 字符 。 

Unicode F Mír 1E 4 

Unicode Œ X. S&S FA FEAT ARIE RP FF CLL RR OE AF PP 
MJ) ， 评 见 表 3-5。 


表 3-5: Unicode 行 终止 符 

+ fi 描 述 
LF ASCII 换行 和 
vi ASC AAMAR 
FF ASCII it i 
Cr ASCII 94 
ASCII 回 车 /换行 
NEL Unicode 换行 
Unicode 行 分 隔 符 

PS Unicode 段 分 隔 符 

如 果 行 终止 符 获 得 了 完全 的 支持 ， 它 会 影响 文本 行 从 文件 (在 脚本 

语言 中 ， 还 包括 程序 恋 取 的 文件 ) 读 入 的 方式 。 在 使 用 正则 表达 式 时 ， 
它们 影响 点 号 《 守 111) ， 以 及 人、 AZ 的 匹配 (地 112) 。 












正则 模式 和 [匹配 模式 


Regex Modes and Match Modes 

许多 正则 引擎 都 文 持 多 种 不 同 的 模式 ， 它 们 规定 了 正则 表达 陈 应 该 
如 何 解 释 和 应 用 。 我 们 已 经 看 过 Perl 的 /x 修饰 从 (容许 自由 空格 和 注释 
的 正则 模式 二 72〉 和 /Mi 修饰 符 〈 进 行 不 区 分 大 小 与 匹配 的 模式 人 47) 。 

在 许多 流派 中 ， 模 陈 可 以 完全 作用 于 整个 表达 式 ， 也 可 以 单独 应 用 
于 菜 个 子 表达 式 。 整 体 应 用 是 通过 修饰 从 或 者 选项 (options) 来 决定 
的 ， 例 如 Perl WA, PHP 的 模式 修饰 剑 i (5446) ， 和 和 java.util.regex 的 
Pattern.CASE_INSENSITIVE 标 志 (599) 。 如 果 支 持 ， 应 用 到 目标 字 
符 串 中 部 分 文本 的 模式 是 通过 一 个 正则 结构 来 实现 的 ， 例 如 用 (? D 
来 开启 不 区 分 大 小 写 的 匹配 ，' C? -i) 来 停 用 该 匹配 。 有 的 流派 也 文 
FF! C2 i: ...) A! O? -i: ...) 来 局 用 或 者 集 用 对 插 写 内 的 子 表达 式 
进行 不 区 分 大 小 写 匹 配 的 功能 。 

本 章 后 面部 分 会 介绍 C135) 如 何在 正则 表达 式 中 设置 这 些 模 
式 。 在 本 节 ， 我 们 只 看 看 大 多 数 系统 提供 的 汕 见 模式 。 

不 区 分 大 小 写 的 思 配 模式 

此 模式 很 常见 ， 它 在 匹配 过 程 中 会 忽略 字母 的 大 小 写 ， 所 以 必 可 
以 匹配 洛 : 和 宇 :。 此 功能 也 必须 依赖 于 正确 的 字符 编 但 文 持 ， 所 以 之 前 
我 们 所 到 的 注意 事项 对 它 都 适用 。 

在 历史 上 ， 不 区 分 大 小 写 的 匹配 支持 一 直 不 太 令 人 满 症 ， 被 bug 
扰 ， 好 在 如 今 大 部 分 已 经 修正 了 了。 不 过 ，Ruby 不 区 分 大 小 写 的 匹配 仍然 
不 能 处 理 八进制 和 十 六 进 制 的 转 义 字符 。 不 区 分 大 小 与 的 匹配 存在 特殊 
的 与 Unicode 相 关 的 问题 〈 在 Unicode 中 称 为 “粗略 匹配 (loose 
matching) ”) 。 人 徐 单 地 说 ， 残 是 并 非 所 有 的 ASCII 字 母 和 数字 字符 都 存 
在 大 小 写 形式 ， 而 荣 些 字符 在 作为 单词 首 字 母 时 会 有 单独 的 标题 格式 
(title case) 。 有 时 候 在 大 写 和 小 写 之 间 并 没有 明 时 的 一 对 一 上 映射。 名 
见 的 例子 是 希 腾 字 母 西 格 马 2， 它 有 两 个 小 写 形 式 C 和 Ga， 在 不 区 分 大 小 
写 的 模式 中 ， 这 三 者 应 该 是 等 价 的 。 根 据 我 的 测试 ， 只 有 Perl 和 Java 的 
java.utilregex 能 人 够 正确 处 理 它 们 。 

另 一 个 问题 是 ， 有 时 候 单 个 字符 会 对 应 到 一 组 字符 。 第 见 的 例子 是 
大 写 的 8 是 两 个 字符 的 组 合 <SS”。 这 种 情况 只 有 Perl 能 够 正确 处 理 。 

Unicode 还 带 来 了 一 些 问 题 。 例 如 单字 符 了 (V+01F0) 没 有 对 应 的 大 
写 形式 的 单字 从 。 相 反 ，J 需要 使 用 组 合 字符 〈( 寺 107) ，U+004A 和 
U+030C。 而 J 和 J 应 该 在 不 区 分 大 小 写 的 模式 中 是 等 价 的 。 类 似 的 还 


AMT = ABI. AA, EAR eA 

宽松 排列 和 注释 模 却 

此 模式 会 忽略 字符 组 外 部 的 所 有 衬 折 字符。 字符 组 内 部 的 空白 字符 
仍然 有 效 (java.util.regex 是 例外 ) ，# 符 号 和 换行 符 之 间 的 内 容 视 为 注 
释 。 我 们 已 经 见 过 Perl (72) 、Java (98) 和 VB.NET (799) 中 相 
应 的 例子 。 

不 过 ， 在 java.util.regex 中 ， 字 人 符 组 之 外 的 所 有 空 日 字 从 并非 都 会 被 
忽略 ， 而 是 作为 一 个 “无 意义 元 子 从 (do-noting metacharacter) ”。 在 理 
解 \12:3 时 ， 这 种 区 分 很 重要 ， 因 为 它 表示 '3 REM 之 后 ， 而 不 是 
有 些 人 以 为 的 \123。 

当然 , “至 日 字符 ?的 定义 取 雇 于 所 采用 的 字符 编码 的 定义 ， 以 及 此 
编 但 对 衬 日 字符 的 文 持 程度 。 大 多 数 程序 只 能 识别 ASCII 的 空 日 字符 。 

点 号 通 配 模式 (dot-match-all match mode， 也 叫 “ 单 行 模式 ”) 

通 币 ， 点 号 古 不 能 匹配 换行 符 的 。 最 初 的 Unix 正 则 表达 陈 工 具 是 逐 
行 处 理 的 ， 和 直到 sed 和 lex 出 现 之 后 ， 才 提出 逻 配 换行 从 的 要 求 。 那 时 
Wes AMEH x 来 匹配 “本 行 中 的 其 他 内 容 (the rest of the line) ”， 为 
了 保证 一 致 ， 新 的 语法 不 能 修改 .类 的 定义 ( 注 9) 。 所 以 ， 能 够 处 理 
多 行文 本 的 工具 例如 文本 编辑 带 ) 通 第 不 容许 点 号 匹配 换行 符 。 

对 现代 编程 语言 米 说 ， 点 号 能 够 轧 配 换行 从 的 模式 和 不 能 匹配 的 模 
式 同 样 有 用 。 这 两 种 模式 哪个 更 方便 ， 取 决 于 上 其 体 的 情况 。 许 多 程序 所 
供 了 两 种 方法 供 正则 表达 式 选 择 。 

这 种 第 规 标 准 也 有 少数 例外 的 情况 。 文 持 Unicode 的 系统 ， 例 如 在 
Sun 的 正则 表达 式 包 ， 点 号 能 够 四 配 未 使 用 此 模式 时 点 号 不 能 匹配 的 所 
有 单字 符 Unicode 行 终止 符 C109) 。 在 Ta 的 普通 模式 中 ， 点 号 能 够 
匹配 任何 字符 ， 但 是 在 其 特殊 的 “区 分 换行 Cnewline-sensitive) ”和 “部 
分 区 分 换行 (partial newline-sensitive) ”的 匹配 模式 下 ， 点 号 和 排除 型 
字符 组 都 不 能 匹配 换行 符 。 

MERIMA 

/As 修饰 符 对 应 的 匹配 模式 第 一 次 出 现在 Perl 时 ， 补 称 为 “单行 文本 模 
式 (single-line mode) ”。 这 个 不 短 的 命名 一 直 是 混乱 的 起 源 ， 因 为 与 下 
一 节 讨 论 的 “多 行文 本 模式 (multiline mode) ”比较 起 来 ， 它 似乎 与 入 
和 '$ 没有 关系 。 其 实 “* 单 行文 本 模式 ? 指 的 是 ， 氮 号 不 党 限制 ， 可 以 匹配 
任何 字符 。 

增强 的 行 锚 点 模式 (Enhanced line-anchor match mode， 也 叫 “ 多 
行文 本 模式 2”) 


增强 的 行销 点 模式 会 影 啊 到 行销 点 个 和 '$ 的 匹配 。 通 常情 况 下 ， 
锁 点 以 不 能 匹配 字符 串 内 部 的 换行 符 ， 而 只 能 匹配 目标 字符 串 的 起 始 
Pie. (ATELIER, E Re DOB BAA REY CAST FF 
位 置 。 前 一 章 出 现 了 这 样 的 例子 C69) ， 当 时 我 们 用 Perl 开 发 把 文本 
内 容 转 换 为 超 文 本 内 容 程序 。 其 中 ， 所 有 的 文本 保存 在 一 个 字符 串 中 ， 
所 以 我 们 可 以 通过 和 奏 找 -人 符 换 功 能 s/M$/<p>/mg 4 E«...tags. H 
It’s..."#2 0 A“...tags. = <p> Mts... REET? BRN BE 
tag. 

$ tyre, Re S$ 在 正 第 情况 下 的 匹配 的 基本 规则 比较 难 理解 
(129) 。 不 过 ， 融 本 贡 来 说 ， 我 们 只 需要 记 住 ，'$ 可 以 匹配 字符 串 
ARBRIT, WE I o 

LEERAREA petk OVA 和 NZ ， 它 们 的 作用 与 普通 的 
信和 '$ 一 样 ， 只 是 在 此 模式 下 它们 的 意义 不 会 及 生变 化 。 也 束 古 说 
\A 和 AZ 永远 不 会 轧 配 字符 串 内 部 的 换行 从。 有 些 实现 方式 中 ，'$ 和 
\Z 能 够 罗 配 字 从 串 内 部 的 换行 从， 不 过 它们 通 闸 会 提供 \z ， 唯 一 匹 
配 整 个 字符 串 的 结尾 位 置 。 详 见 129 页 。 

对 点 号 来 说 ， 第 用 标准 有 一 些 例 外 。 在 GNU Emacs 之 类 的 文本 编辑 
右 中 ， 行 锁 点 通 利 能够 匹配 字符 串 中 的 换行 符 ， 因 为 在 编辑 需 中 这 样 非 
mam xX. A ATA, lex) '$ 只 能 号 配 换行 符 之 前 的 位 置 〈 其 中 人 的 
意义 与 常见 的 一 样 )。 

此 模式 下 ， 在 Sun 的 java.util.regex 之 类 支持 Unicode 的 系统 中 ， 行 锚 
点 能 够 四 配 任何 一 种 行 终 止 符 ( 雪 109) 。Ruby 的 行销 点 在 正常 情况 下 
能 够 匹配 字符 串 中 的 换行 符 ，Python 的 \Z 类 似 \z ， 而 不 是 普通 的 
$ o 

KHAR, TRAPS ASS JT RAZ (multiline mode) ”. KEC 
EAT RV IZ AT ARR, (HACZFRA DWE BARK. AE 
改 的 是 点 号 的 匹配 规则 ， 前 者 修改 的 是 入 A'S 的 匹配 规则 。 男 一 方 
面 ， 它 们 从 不 同 的 思路 处 理 换 行 符 。 第 一 个 修改 了 点 号 处 理 换 行 符 的 方 
式 ， 从 “需要 特殊 处 理 ? 变 为 “不 需要 特殊 处 理 ”， 第 二 个 的 做 法 则 相反 ， 
改变 了 中 AG 匹配 换行 符 的 方式 ， 从 “不 需要 特殊 处 理 ? 变 为 “需要 特殊 
处 理 ”( 注 10) 。 

文字 文本 模式 

“文字 文本 (literal text) ”模式 几乎 不 能 识别 任何 正则 表达 式 元 字 
和 侍 。 例 如 ， 文 字 文 本 模式 下 '[a-z]x 匹配 字符 串 “[a-z] 类 ”。 完 整 的 文字 





PARR (literal search) “taj LEAP AFB BR C 搜 款 这 个 子 AY ER” , or 
Fe “搜索 这 个 正则 表达 式 * ) ， 文 持 正 则 表达 式 的 程序 通 茹 :也 提供 了 普 
F 符 串 搜索 功能 。 正 则 表达 去 的 文字 文本 模 却 之 所 以 更 有 趣 ， Aes 

它 可 以 只 作用 于 正则 表达 式 的 一 部 分 ， 举例 来 说 ，PCRE (因此 也 包括 
PHP) 的 正则 表达 式 和 Perl 的 正则 表达 式 文本 提供 了 特殊 的 序列 \Q... 
YE， 其 中 内 容 的 元 字符 全 部 被 忽 略 〈 当 然 ， 不 包括 \E) 。 


利用 的 元 字符 和 特性 


Common Metacharacters and Features 

本 章 的 其 他 部 分 一 和 剩 下 大 约 30 页 的 内 容 徐 要 介绍 下 一 页 列 出 的 第 
见 正 则 表达 云 元 字符 和 概念 。 这 里 的 介绍 并 不 是 全 面 彻 展 的 ， 不 过 也 没 
有 任何 一 种 正则 工具 涉及 其 中 的 所 有 内 容 。 

从 茶 种 意义 上 说 ， 这 一 节 只 是 前 两 草 内 容 的 上 总结， 但 同时 也 是 为 本 
章 介 绍 更 全 面 更 深刻 的 知识 做 准备 。 读 者 第 一 次 接触 时 ， 只 需 略 读本 章 
束 可 以 继续 阅读 下 面 各 草 ， 以 后 在 需要 的 时 候 可 以 随时 回 过头 来 合 阅 细 
es 





有 的 工具 添加 了 大 量 的 新 功能 ， 也 可 能 毫 无 根据 地 改变 某 些 通用 表 
示 法 ， 以 满足 它们 的 特殊 要 求 。 尽 管 我 有 时 会 提 到 这 些 特殊 的 工具 ， 但 
不 会 伦 太 多 的 笔墨 在 工具 的 细节 问题 上 上。 相反， 在 这 一 节 我 只 希望 介绍 
种 见 的 元 字符 及 其 作用 ， 以 及 与 此 相关 的 一 些 问 题 。 我 希望 谈 者 能 够 参 
考 目 己 擅 长 的 工具 提供 的 使 用 手册 。 

本 节 介 绍 的 结构 

字符 表示 法 

115 字 符 缩 略 表 示 法 : \n、\t、 a Ab e B Yr、\vV、... 

F116 八进制 转 义 : \num 

地 117 十 六 进 制 /Unicode 转 义 : \xnum, \x{num}, \unum, \Unum, 


F117 控制 字符 : \cchar 

字符 组 及 相关 结构 

118 普通 字符 组 : [a-z] 和 [人 ^a-z] 

119 几乎 能 匹配 任何 字符 的 元 字符 : 点 号 
F120 单个 字 节 : \C 

3120 Unicode 组 合 字 符 序 列 : \X 

120 字符 组 缩 略 表示 法 : \w、\d、 \s、\W、\D、\S 
121 Unicode 属 性 、 区 块 和 分 类 : \p{Prop}. \P{Prop} 
125 字符 组 运算 符 : [[a-z]&g&[Aaeiou]] 

127 POSIX“ 字 人 符 组 ” 方 括 号 表示 法 : [[: alpha: ]] 
128 POSIX“collating 序 列 ? 方 括号 表示 法 : [[.span-l1.]] 
F128 POSIX“ 字 符 等 价 奖 ? 方 括号 表示 法 : [[=n=]] 


128 Emacs 语法 类 

AKRE SEKENE” 

129 行 /字符 串 起 点 : ^A、\A 

129 行 /字符 串 终 点 : $ \Z, \z 

130 本 次 匹配 的 开始 位 置 《或 者 上 次 匹配 的 结束 位 置 ) : \G 

133 单词 分 界 符 : \b. AB AK, A>, on. 

F133 IPAM (? =...) 2 1! ...) s EPO 去 
Seem Ce Re, aaa 

注释 和 模式 修饰 词 

135 模式 修饰 词 : (? modifier) , Pa ©? i) 或 (? -i) 

135 模式 作用 范围 : ©? modifier: ...)， 例 如 (3 i: ...) 

S136 注释: (? #...) AF... 

F136 文字 文本 范围 : \Q...\E 

分 组 、 捕 获 、 条 件 判 断 和 控制 

137 捕获 /分 组 括号 : Ca) 、\L、\2，... 

137 MATOS: C2 : ...) 

S138 命名 捕获 : (? <Name>...) 

139 固化 分 组 : (? >...) 

139 多 选 结构 :，...|...|... 

140 条 件 判 断 : 〈? if thenlelse) 

141 几 配 优先 量词 : 大 、+、? {num, num} 

141 忽略 优先 量词 : 大 ? 、+? 、? ? 、{num,; num}? 

3142 占有 优先 量词 : 大 +、++、? +, {num, num}+ 


字符 表示 法 


Character Representations 
n X — H I FIT RE VATE WSE AI 77 IL Pe HAETT IP IR ETH EY aS 
FAT 

TITRA 

FE LAGE I REE ETN OAT, SR ERE PR 
有 机 器 上 都 是 不 变 的 ， 但 也 有 些 是 很 难 输入 或 观察 的 : 

\a 警报 《〈 例 如， 在 “打印 ?时 扬 声 带 安 声 ) 。 通 和 对 应 ASCII 中 的 所 
BEL >F e JH 


制 编码 007。 

\b EM 通常 对 应 ASCII 中 的 二 BS 二 字符 ， 八 进 制 编码 010。 (EYE 
多 流派 中 ，'b 只 有 在 字符 组 内 部 才 表 示 这 样 的 意义 ， 人 否则 代表 单词 分 
FGFS 133) 。 

\e Escape FIF 通常 对 应 ASCII 中 的 二 ESC 过 字符， 八进制 编码 033。 

f 进 纸 符 通常 对 应 ASCI 中 的 本 FF> 字 符 ， 八 进 制 编码 014。 

\n 换行 他 出 现在 几乎 所 有 平台 (包括 Unix 和 DOS/Windows) E, 
通常 对 应 ASCII 的 二 LF 字符， 八进制 编码 012。 在 MacOS 中 通常 对 应 
ASCII 的 二 CR 字符， 十 进 制 编码 015。 在 Java 或 任意 一 种 .NET 语言 
中 ， 不 论 采 用 什么 平台 ， 都 对 应 ASCII<LE> 字 符 。 

ir 回 车 通 第 对 应 ASCII 的 二 CR 字符。 在 MacOS 中 ， 对 应 到 ASCII 
的 二 LF 二 字符 。 在 

Java 或 任意 一 种 .NET 语 言 中 ， 不 论 采 用 什么 平台 ， 都 对 应 到 ASCII 
W<CR> FÍF. t 水 平 制 表 符 对 应 ASCI 的 本 HT> 字 符 ， 八 进 制 编码 
011. 

\v 垂直 制 表 符 对 应 ASCII 的 <VT> 字 符 ， 八 进 制 编码 013。 

表 3-6 列 出 了 几 种 篆 用 的 工具 及 它们 提供 的 某 些 字符 缩 略 表示 法 。 
之 前 已 经 说 过 ， 某 些 语 言 在 文 持 字符 串 文 字 时 已 经 提供 了 同样 的 字符 缩 
—— 请 不 要 忘记 那 一 节 ( 守 101) ， 因 为 它 涉 及 某 些 相关 的 陷 
BH 

Sa AE TEDL AS ERTI? 

从 该 表 可 以 看 出 ， 在 许多 工具 中 ，Nn 和 的 意义 是 随 操作 系统 的 变 
化 而 变化 的 〈 注 11) ， 所 以 在 使 用 时 应 格外 小 心 。 如 果 你 需要 在 程序 可 
能 运行 的 所 有 平台 上 都 能 通用 的 “换行 符 ”， 请 使 用 nm。 如 果 需 要 一 个 对 
应 特殊 值 的 字符 ， 例 如 HTTP 协 议定 义 的 分 隔 符 ， 请 使 用 \012 之 类 标准 
规定 的 字符 Q012 是 ASCII 中 的 换行 行 的 八进制 编码 ) 。 如 果 你 希望 匹 
配 DOS 中 的 行 终结 字符 ， 请 使 用 \015\012 。 如 果 希 望 同时 匹配 DOS 或 
Unix 的 换行 字符 ， 请 使 用 [\015? \012 (它们 通常 是 匹配 行 尾 的 字 
符 ， 如 果 和 希望 匹配 行 的 开头 位 置 或 结尾 位 置 ， 请 使 用 行 锚 点 味 129) 。 


423-6: 几 丈 工具 软件 及 它们 提供 的 元 字符 简写 法 


单词 RR 警报 Asci HRR 换行 符 回 车 符 制 表 符 垂直 


分 界 符 字符 Escape 制 表 符 
\b \b \a \e fn w wE \v 
ih = TIE 
Python / ve ¥ / / / / / 
Tel 等 于 W |v / / / / / / / 
Perl / i d / / / / / 
‘te W 、 de i W fo Wa Va Fa ¥€ 
GNU awk lv g i  ¥ F d 
GNU sed / 
GNU Emacs / B & f 4, YY YY, fF, 
NET aa 4 od / / / / / 
PHP (preg 套件 ) vv Ks # / / / / / 
MySQL = 
GNU grep/egrep so 
flex o W z Ff ¥ ¥ f ¥ 
Ruby vv lv vd é¢¢ F df 


V 支持 ; Vc 只 在 字符 组 内 部 支持 
Vn Rd (字符 囊 文字 也 支持 ) 
J 支持 (但 在 字符 串 文字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 
J. 不 支持 (但 在 字符 串 文 字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 
Vs 不 支持 (但 字符 囊 文 字 支持 ) 
本 表格 假设 在 每 种 程序 中 使 用 的 前 是 最 适合 正则 表达 式 的 字符 串 类 型 
股本 信息 请 参考 第 91 页 
八进制 转 义 \num 
文 持 八进制 《以 8 为 基数 ) 转 义 的 实现 方式 通 弟 容 诗 以 2 到 3 位 数 子 
表示 该 值 所 代表 的 字 节 或 字符 。 例 如 ，"n015\012 表示 ASCI ”的 CR/LF 


序列 。 八 进 制 转 义 可 以 很 方便 地 在 正则 表达 式 中 插入 平时 难以 输入 的 字 
人 竺 。 例 如 ， 在 Perl 中 ， 我 们 可 以 使 用 ^e 作为 ASCII 的 转 义 字符 ， 但 是 在 
awk 中 不 行 。 

因为 awk 文 持 八 进 制 攀 义 ， 我 们 可 以 直接 使 用 ASCII 人 代码 来 表示 
escape Fff: \033 。 

下 一 页 的 表 3-7 列 出 了 部 分 工具 支持 的 八进制 转 义 。 

有 些 实现 方式 很 特殊 ， 在 其 中 \0 能 够 还 配 字 方 NUL。 有 的 文 持 一 
位 数字 的 八进制 转 义 ， 不 过 如 果 同 时 支持 \1 之 类 的 反 同 引用 ， 束 不 会 
提供 这 种 功能 。 如 末 两 者 发 生 冲 突 ， 则 反问 引用 一 般 要 优先 于 八进制 转 
义 。 有 的 容许 出 现 4 位 数字 的 八进制 转 义 ， 不 过 通常 会 要 求 任何 八进制 
转 义 都 必须 以 0 开头 《例如 java.util.regex) 。 

你 可 能 会 想 ， 如 果 过 到 \565 之 关 超 出 范围 的 转 义 数值 〈8 位 的 八 进 
制 数 值 范 围 从 \000 到 \377) 会 发 生 什 么 。 大 约 一 半 的 实现 方式 将 其 视 为 
多 余 一 个 字 节 的 值 (如 果 支 持 Unicode， 则 可 能 是 Unicode 字 符 ) ， 而 其 
他 实现 方式 会 将 其 截断 为 一 个 字 节 。 一 般 来 襄 ， 最 好 的 办 法 还 是 不 要 使 
用 超过 \377 的 八进制 转 义 。 

十 六 进 制 及 Unicode 转 义 : \xnum, \x{num}. \unum, \Unum 

除了 八进制 转 义 之 外 ， 许 多 工具 软件 也 支持 十 六 进 制 转 义 〈( 以 16 为 
基数 ) ， 以 x、\u 或 者 是 \U 开 头 。 如 果 文 持 xX， 则 x0D\x0A 匹配 CR/LF 
序列 。 表 3-7 列 出 了 部 分 工具 软件 文 持 的 十 六 进 制 转 义 。 

除了 知道 采用 的 是 哪 种 转 义 之 外 ， 你 可 能 还 硕 望 知道 各 种 转 义 能 识 
别 多 少 位 的 转 义 值 ， 以 及 是 否 能 够 《或 者 必须 ) 在 数字 两 问 使 用 伦 括 
号 。 对 此 ， 表 3-7 同 样 作 了 说 明 。 

控制 字符 : \cchar 

许多 流派 中 可 以 用 "\cchar 来 匹配 编码 值 小 于 32 的 控制 字符 〈 有 些 
能 文 持 更 大 的 值 ) 。 例 如 ， [\cH [匹配 一 个 Control-H 字 从 ， 也 就 是 
ASCII 中 的 退 格 符 ， 而 \cJ 匹配 ASCII 的 换行 符 〈 通 常 使 用 \n ， 不 过 有 
时 也 使 用 "rr ， 这 取决 于 具体 的 平台 所 115) 。 

文 持 此 结构 的 系统 在 细节 上 有 上 所 不 同 。 与 这 个 例子 一 样 ， 通 钊 使 用 
大 写 严 文字 母 是 不 会 有 问题 的 。 在 大 多 数 实现 方式 中 ， 你 也 可 以 使 用 小 
写字 母 ， 不 过 也 有 的 软件 不 文 持 它们 ， 例 如 Sun 的 Java regex Package. 
流 铂 不同， 对 字母 和 数字 之 外 的 字符 的 处 理 是 非常 不 同 的 ， 所 以 我 推荐 
在 使 用 \c 时 只 使 用 大 写字 母 。 

相关 提示 : GNU Emacs 文 持 此 功能 ， 但 它 使 用 的 元 序列 非常 奇特 
? Wchar 〈 例 如 : '? WH 匹配 ASCII 编 码 中 的 退 格 字符 ) 。 


表 3-7: 部 分 工具 软件 及 它们 的 正则 表达 式 支 持 的 八进制 和 十 六 进 制 转 义 


Python 

Tel 

Per! 

Java 

GNU awk 

GNU sed 

GNU Emacs 

NET 
PHP (preg 套件 ) 

~ MySQL 

GNU egrep 

GEU grep 

flex 

Ruby 


反问 引用 八进制 转 义 上 六 进 制 转 义 
WE 


~ 


NO. ATT. ASTI 


Pf «NOT, \77, \0377 
[Tv in art 
T S 


WO A NST \XFF; \uFFFF 


A VE 


一 ww \7, A77, \377 | \xF; \xFF 
if | VT Ma? VST \xF; \xFF 


\xF; \xFF; \x{*…} 
\XFF; \uFFFF 


\0, \77, \377 \x+\UFFFF; \UFFFFFFFE 





\0O—'\0; 匹配 字 节 NUL， 而 其 他 一 位 数字 的 八进制 转 义 是 不 支持 的 。 
\7,\77 一 一 一 位 和 两 位 八进制 转 义 部 支持 

\07 一 一 支持 开头 为 0 的 两 位 八进制 转 义 

\077 一 一 支持 开头 为 0 的 3 位 八进制 转 义 

\377 一 一 支持 不 超过 \377 的 3 位 八进制 转 义 

\0377 一 一 支持 不 超过 \0377 的 4 位 八进制 转 义 

\777 一 一 支持 不 超过 \777 的 3 位 八进制 转 义 

\X… 一 一 容许 出 现任 意 多 位 数字 


ape 一 


…} 容许 出 现任 意 多 位 数字 


\xF, \xFF 一 一 以 \x 开头 ， 容 许 出 现 一 到 两 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \u 开 尖 的 4 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \U 开头 的 4 位 十 六 进 制 转 义 

\UFFFFFFFF 一 一 以 \U 开头 的 8 位 十 六 进 制 数字 (参考 第 91 页 的 版 本 信息 ) 


字符 组 及 相关 结构 


Character Classes and Class-Like Constructs 

INE VES TR A, aN MT IEE IE AIA SUI SRM A EH 
字符 ， 不 过 最 通行 的 方法 还 是 使 用 普通 字符 组 。 

普通 字符 组 : [a-z] 和 [Aa-z] 

我 们 已 经 介绍 过 字符 组 的 基本 概念 ， 不 过 我 还 是 要 强调 ， 元 字符 的 
规定 在 字符 组 内 外 是 有 差别 的 。 例 如 ， 在 字符 组 内 部 ' 闪 ,永远 都 不 是 元 
FIF, m- 通 间 都 是 元 字符 。 有 些 元 序列 ， 例 如 \b ， 在 字符 组 内 外 的 
意义 是 不 一 样 的 (二 116) 。 

在 大 多 数 系 统 中 ， 字 人 符 组 内 部 的 顺序 环视 是 无 天 紧 要 的 ， 而 且 使 用 
苑 围 表 示 法 而 不 是 列 出 范围 内 的 所 有 字符 并 不 会 影响 执行 速度 《〈 例 如， 
[0-9] 与 [908176354] 和 是 一 样 的 ) 。 相 反 ， 茶 些 实现 方式 不 能 完全 优化 字符 
组 (比如 Sun 提 供 的 Java regex package) ， 所 以 最 好 是 使 用 范围 表示 
法 ， 因 为 如 果 有 差别 ， 这 种 表示 法 的 速度 会 快 一 些 。 

字符 组 通常 表示 肯定 断言 (positive assertion) 。 也 就 是 说 ， 它 们 必 
须 匹 配 一 个 字符 。 排 除 型 字符 组 仍然 需要 匹配 一 个 字符 ， 只 是 它 没 有 在 
字符 组 中 列 出 而 已 。 把 排除 型 字符 组 理解 为 * 史 配 未 列 出 字符 的 字符 
组 ?或 许 更 容易 一 些 〈 请 务必 阅 谈 下 一 节 中 关于 点 号 和 排除 型 字符 组 的 
ft) 。 [ALMNOP] 通常 等 价 于 Mx00-kQ-xFF]， ， 即 使 在 规定 严格 的 8 
位 系统 中 ， 这 仍然 成 立 ， 但 是 在 Unicode 之 类 字符 的 值 可 能 大 于 
255 (\xFF) 的 系统 中 ， 排 除 型 字符 组 | [LMNOP] 可 能 包括 成 干 上 万 
个 字符 一 REPEAL, M, N, OMP. 

请 务必 理解 使 用 范围 表示 法 的 基本 字符 组 。 例 如 ， 用 '[a-2] 匹配 字 
母 承 很 可 能 存在 址 漏 ， 而 且 在 任何 情况 下 显然 都 不 是 “所 有 字母 ”。 而 [a- 
ZA-Z] 则 能 匹配 所 有 字母 ， 至 少 对 于 ASCII 编 码 来 说 是 这 样 的 〈 请 参 
“Unicode Jatt? Hy\p{L}= 121) 。 当 然 ， 在 处 理 二 进 制 数据 时 ， 字 
符 组 中 的 ^x80-\XFF: 范 围 表 示 法 完全 适用 。 

几乎 能 匹配 任何 字符 的 元 字符 : AS 

在 茶 些 工具 软件 中 ， 点 亏 用 来 缩 略 表 示 可 以 匹配 任何 字符 的 字符 
组 ， 而 在 其 他 工具 中 ， 点 号 能 匹配 除了 换行 符 之 外 的 任何 字符 。 这 天 列 
很 细微 ， 但 如 果 所 用 的 工具 能 够 处 理 包含 多 个 逻辑 行 的 目标 文本 (或 者 
古文 本 编辑 颖 中 的 多 个 逻辑 行 的 文本 )〉 ， 它 束 非 党 重要 。 关 于 点 写 ， 需 
要 注意 的 有 : 

e 企 Sun 的 Java regex package 之 类 有 的 文 持 Unicode 有 的 系统 中 ， 扣 号 个 
HeVL AcUnicodeHt {TAZ C5109) 。 

oJU (7111) SAVERS NLA. 





ePOSIX 规 定 ， 点 号 不 能 匹配 NUL 〈 值 为 0 的 字符 ) ， 尽 管 大 多 数 脚 
本 语言 容许 文本 中 出 现 NULL (而 且 可 以 用 点 号 来 匹配 ) 。 

点 号 ， 还 是 排除 型 字符 组 

如 果 所 使 用 的 工具 能 够 在 多 行文 本 中 进行 搜索 ， 请 务必 注意 点 号 ， 
它 在 通 弟 情况 下 不 能 匹配 换行 符 ， 而 排除 型 字符 组 '[A" ] 通常 都 可 以 。 
如 膝 把 和 " .大 "和 蔡 换 为 "" [人 A"] 类 " ， 可 能 会 市 来 意 想 不 到 的 效果 。 氮 
号 的 匹配 规定 一 般 可 以 通过 变换 匹配 模式 来 更 改 一 一 请 参考 第 1110 
的 “点 号 通 配 模式 ”。 

单个 字 市 

Perl 和 PCRE (WEAH PHP) 文 持 用 \C 匹 配 单个 字 节 ， 即 使 该 字 节 
位 于 某 个 多 字 节 编码 的 字符 之 中 (相反 ， 其 他 功能 都 是 基于 字符 的 ) 。 
这 个 功能 很 危险 ， 如 果 运 用 不 当 ， 可 能 会 导致 内 部 错误 ， 所 以 只 有 在 清 
楚 目 己 所 作 所 为 的 情况 下 ， 才 能 使 用 它 。 我 找 不 到 恰当 运用 的 例子 ， 所 
以 下 文 不 再 提 及 。 

Unicode 组 合 字 和 人 符 序列 : \X 

Perl 和 PHP 文 持 用 \ 又 缩 略 表示 \P{M}\p{M} * o EAD AL SHY 
扩展 。 写 匹配 一 个 基本 字符 〈 除 \p{M} 之 外 的 任何 字符 ) ， 之 后 可 能 有 
任意 数目 的 组 合 字 符 〈 除 \p{M} 之 外 ) 。 

之 前 已 经 介绍 过 C107) ，Unicode 体 系 包 括 基 本 字符 和 组 合 字 
付 ， 二 者 可 以 合成 “看 起 来 ”的 单个 字符 ， 例 如 a (‘的 编码 是 U+0061， 
ime Ss 的 编码 是 U+0300〉 。 有 的 字符 可 能 包含 不 止 一 个 的 组 合 字 
Ro a, E 就 包括 ‘eC*?， 然 后 是 变 音符 。 ， 最 后 是 短 音符 所， 
(Unicode 编 码 分 别 是 U+0063、U+0327 和 U+0306) 。 

如 末 锅 望 思 配 “francais” 或 者 “franGais”*”， 仪 仪 使 用 fran.ais 或 者 
fran[cGlais 还 不 够 保险 ， 因 为 此 方法 假设 ‘CG’ 用 单个 Unicode 代 码 点 
U+00C7 表 示 ， 而 不 是 ‘CO 加 上 变 音符 (U+0063 加 上 U+0327) 。 如 果 需 要 
专门 处 理 ， 可 以 使 用 'fran Cc, ? |G) ais ， 不 过 在 这 里 ， 用 'fran\Xais 
取代 fran.ais 古 个 好 办 法 。 

除了 能 够 下 配 结 尾 的 组 合 字 符 之 外 ，\X 与 点 号 还 有 两 个 差别 。 其 一 
是 ，\ 始 终 能 匹配 换行 符 和 其 他 Unicode 行 终结 符 CS109) ， 而 点 号 只 
有 在 点 号 通 配 模式 (7111) ， 或 者 工具 软件 提供 的 其 他 匹配 模式 下 才 
可 以 。 另 一 点 是 ， 点 号 通 配 模式 下 的 点 号 无 论 什 么 情况 下 都 能 匹配 任何 
字符 ， 而 \X 不 能 匹配 以 组 合 字 符 开 头 的 字符 。 

字符 组 简 记 法 : \w. id, \s. \W. \D, \S 

通常 支持 的 简 记 法 有 : 





\d 数字 每 价 于 '[0-9] ， 如 条 工具 软件 文 持 Unicode， 能 匹配 所 有 的 
Unicode 数 字 。 

\D 非 数 字 字 人 符 等 价 于 '[A\d] 。 

\w 单词 中 的 字符 一 般 等 价 于 '[a-zA-Z0-9_] 。 某 些 工具 软件 中 Ww 
不 能 匹配 下 男 线 ， 而 另 一 些 工具 软件 的 \w 则 能 文 持 当前 locale (3°87) 
中 的 所 有 数字 和 字符 。 如 果 文 持 Unicode， \w 通 第 能 表示 所 有 数字 和 字 
符 ， 而 在 java.util.regex 和 PCRE 《也 包括 PHP) F, \w 严格 等 价 于 Ta- 
zA-Z0-9 ] 。 

\W 非 单 词 字符 SOT [Mw], 。 

\s AFH 在 文 持 ASCI 的 系统 中 ， 它 通 第 等 价 于 [ftv] o Œ 
支持 Unicode 的 系统 中 ， 有 了 时 包含 Unicode 的 “换行 ?控制 字符 U+0085， 
有 时 包含 “空白 (whitespace) ”属性 \p{Z} (参见 下 一 市 的 介绍 )。 

\S FER ASH 等 价 于 '[As] 。 

87 页 已 经 介绍 过 ，POSIX 的 locale 设 定 会 影响 这 些 简 记 符 号 的 含 
义 〈 尤 其 是 Ww) 。 文 持 Unicode 的 程序 中 ，\w 通 冲 能 匹配 更 多 的 字符 ， 
例如 \p{L}《〈 下 一 介绍 ) 和 下 画 线 。 

Unicode 属 性， 字母 表 和 区 块 : \p{Prop}、\P{Prop} 

表面 上 看 ，Unicode 只 是 一 僚 字 符 上 映射 规 则 C106) ， 其 实 
Unicode 标 准 远 远 不 止 这 些 。 它 还 定义 了 每 个 字符 的 性 质 (qualities) ， 
例如 “这 个 字符 是 小 号 字母 “这 个 字符 是 从 右 往 无 看 的 >，“ 这 个 字符 
是 标记 字符 (mark) ， 它 必须 与 其 他 字符 一 同 使 用 ”等 等 。 

不 同 的 正则 表达 式 系 统 对 这 些 属 性 的 支持 也 不 相同 ， 但 是 许多 支持 
Unicode 的 程序 能 够 通过 [\p{quality} 和 \P{quality} 文 持 其 中 的 一 部 
分 。 比 如 \p{L} Wize Ma BI, SL a eB ee “eB 
(letter) ”( 相 对 于 数字 number、 标 点 punctuation 和 口音 accent， 之 
类 ) 。 号 ’ 是 一 种 普通 属性 (general property， 也 称 为 分 类 category) 。 
我 们 马上 会 了 解 到 ， 可 以 用 \p{.… 和 "\P{...} 来 测试 其 他 “属性 ”*”， 当 然 
文 持 最 广泛 的 还 是 币 见 的 属性 。 

第 见 的 属性 请 见 表 3-8。 每 个 字符 《实际 上 是 代码 点 ， 包 括 那些 目 
前 没有 对 应 字符 的 代码 点 ) 都 可 以 用 一 个 普通 属性 匹配 。 普 通 属 性 的 名 
字 是 单个 字符 《例如 和 二 ;表示 字母 letter，‘S’ 表 示人 符 写 Symbol， 等 等 ) ， 
但 是 某 些 系 统 中 可 以 用 多 个 字母 表述 属性 (例如 ‘Letter?* 和 ‘Symbol”) ， 
比如 Per 欧文 持 这 样 。 

在 茶 些 系统 中 ， 单 字母 属性 名 可 能 不 需要 人 花 括 号 〈 例 如 ， 用 \pL 而 
不 是 中 {L}) 。 有 的 系统 可 能 要 求 〈 或 者 是 容许 ) EH ‘In’ Bk ‘Is’ HAR 


(例如 \p{IsL})，〉。 讲 解 扩 展 属性 Cadditional qualities) 时， 我 们 会 见 到 
要 求 使 用 Is/In 前 级 的 例子 〈 注 12) 。 

按照 表 3-9， 每 个 用 单字 人 符 表 示 的 普通 属性 可 以 进一步 分 为 多 个 双 
字母 表示 的 子 属性 (sub-property) ， 例 如 “字母 detter) ”又 可 以 分 
为 “小 写字 母 "””、“ 大 写字 母 "”、“ 标 题 首 字母 (titlecase letter) ” “修饰 符 
字母 "和 “其 他 字母 "。 每 个 代码 点 能 且 只 能 属于 一 种 子 属性 。 


表 3-8: 基本 的 Unicode 属 性 分 类 





分 类 等 价 表示 法 及 描述 
\p{L} \p{Letter} 一 一 字母 
\p{M} \p{Mark] 一 一 不 能 单独 出 现 , 而 必须 与 其 他 基本 字符 一 起 出 现 (重音 符号 、 


CHE, FF) 的 字符 


\p{Z] \p{Separator} 一 一 用 于 表示 分 隔 , 但 本 身 不 可 见 的 字符 (各 种 空白 字符 ) 
\p{$} \p{Symbol} 一 一 各 种 图 形 符号 (Dingdats) 和 字母 符号 

\p{N} \p {Number} 一 一 任何 数字 字符 

\p{P} \p {Punctuation }——#p 4. F 4 

\p{C} \p{Otherj} 一 一 匹配 其 他 任何 字符 (很 少 用 于 正常 字符 ) 


要 补充 的 是 ， 示 些 实现 方式 文 持 特殊 的 复合 子 属 性 ， 例 如 用 \p{L&)} 
表示 “分 大 小 写 的 (cased) FRF, Hiii [\p{Lu}\p{L}}\p{Lt}], 。 

表 3-9 还 给 出 了 菜 些 实现 方式 文 持 的 属性 名 的 全 称 〔 例 
Yu, “Lowercase Letter”, [fj N7e“LI’) 。 按 照 Unicode 的 标准 ， 各 种 形 
式 都 应 该 能 够 接受 〈 例 
ZH ‘LowercaseLetter’. ‘LOWERCASE LETTER’. ‘Lowercase:Letter’. ‘lo 
letter) ， 不 过 ， 为 了 保持 一 致 ， 我 推荐 使 用 表 3-9 中 的 形式 ) 。 

字母 表 (Scripts) 有 的 系统 能 够 按照 字母 表 〈 书 写 系统 writing 
system) 的 名 字 以 \p{.. 上 来 下 配 。 例 如 ， 用 \p{fHebrew} 匹 配 硕 们 来 文 
e (但 不 包 舍 其 他 书 与 系统 中 第 见 的 字符 ， 例 如 衬 格 和 标 
A) o 

菜 些 字母 表 是 基于 语言 的 (例如 纯度 上 古 哈 拉 地 语 、 泰 国语 、 切 罗 基 
语 ， 等 等 ) 。 有 的 覆盖 了 多 种 语言 〈 例 如 拉丁 文 、 西 里 尔 文 ) ， 还 有 些 
语言 包含 多 种 字母 表 ， 例 如 日 语 的 字符 承 来 和 目 平 假名 、 瞩 假名、 汉语 和 
拉丁 语 。 请 读者 参考 目 己 系统 的 文档 获取 完整 的 信息 。 

字母 表 不 会 包含 特定 的 书写 系统 中 的 所 有 字符 ， 而 只 包含 独 属 于 
(或 者 几乎 独 属 于 ) 此 书写 系统 中 的 字符 。 各 见 的 字符 ， 例 如 衬 格 和 标 


点 不 属于 任何 字母 表 ， 而 是 属于 通用 的 ICommon 伪 字母 表 (pseudo- 
script) ， 用 \p{IsCommon} 匹配 。 还 有 一 个 念 字母 表 Inherited， 它 包括 
从 其 所 属 的 字母 表 中 基本 字符 继承 而 来 的 组 合 字符 。 

表 3-9: 基本 的 Unicode 子 属性 


属 性 
\p{L1} 
\p{ Lu} 
\P{Lt} 


\p{Lé&} 
\p{ im} 
\p {Lo} 


\p {Me} 
\P(Zs} 


\p{ Zl) 
\p{ Zp) 
\p{Sm} 
\p {Se} 
\p(Sk} 


\p{So) 
\p {Nd} 


\p{N1} 
“PlNo) 


\p {Pd} 
\p{Ps) 
\p {Pe} 
\p{ Pi} 
\p{P£} 
\p {Pe} 
vpi Po} 
\p{Cce} 
\p{Cf} 
\p({Co} 
\p{Cn} 


等 价 表 示 法 及 说 明 
\p{Lowercase Letter} 一 一 小 写字 母 ， 





\p{Uppercase Letter} KEFE, 

\p{Titlecase Letter} 一 一 出 现在 单词 开头 的 字母 (例如 ,字符 DZ 是 小 写字 母 
dz 和 大 写字 母 DZ 的 首 字 母 形 式 ) 。 

\P{L1}, \p{Lu}, \p{Lt} #449 MICE, 

\p(Modifier Letter} 少数 形似 字母 的 ， 有 特殊 用 途 的 字符 。 

\p{Other Letter} 没有 大 小 写 形式 ,也 不 局 于 修饰 符 的 字母 ,包括 锅 怕 来 语 ， 
阿拉 伯 语 、 理 加 拉 语 、 素 国语 、 日 语 中 的 字母 ， 

\p{Non Spacing Mark} 用 于 修饰 其 他 字符 的 “字符 (Characters) ”, 
SHS, EAD, HE “tins” Fo tit. 

\p{Spacing Combining Mark] 一 一 会 占据 一 定 宽 度 的 修饰 字符 (各 种 语言 中 的 
k$ ARF”, AERE Geam, MET, SARE, AF 
Bie, yew, DAH, Be Fie, Mo) Fe mte), 
\p{Encolsing Markl 一 一 可 以 围 住 其 他 字符 的 标记 ， 例 如 图 围 、 方 框 、 钻 五 型 等。 
\p{Space_ Separator} 各 种 空白 字符 ， 例 如 空格 竺 、 不 间断 室 格 (non-break 
space)， 以 及 各 种 固定 宽度 的 空白 字 桂 。 

\p{Line_ Separator}——LINE SEPARATOR F4 (U+2028), 

\p{Paragraph Separator }——-PARAGRAPH SEPARATOR F#4 (U+2029), 
\p{Math Symbol}——%&FfAaF. +. +. APRA, 

\p{Currency Symbol}——W pA, $, f, ¥, Ee, 

\p(Modifier Symbol] 一 一 大 多 数 版 本 中 它 表 示 组 合 字符 , 但 是 作为 功能 完整 的 
字符， 它们 有 自己 的 意义 ， 

\P{fOther Symbol)} 一 一 各 种 印刷 竺 号、 框图 符号 ， 育 文 符号， 以 及 非 字 母 形 式 的 
TEFA, FF, 

\p{Decimal Digit Number} 
A Ars), 
\p{Letter_Number}——JL AF Sh. 

\p{Other_ Number }——‘/f #4 #0 # 4}-F (superscripts) 和 记号 的 数 宁 ， 非 阿拉 伯 数 
PRS APH (不 包括 中 艾 、 日 艾 、 韩 艾 中 的 他 村)。 

\P{Dash Bunctuation} 一 一 各 种 格式 的 连 字 苷 (hyphen) 4°42%]% (dash), 
\p{Open Punctuation}, afte (FF HH. 

\p{Close_ Punctuation} h Sf) Fre. 

\p{Initial_Punctuation]} qo" <a 

\p{Final_Punctuation| » o >See. 

\p{Connector Buncetuationl 一 一 少数 有 特殊 语法 含义 的 标点 ， 如 下 画 线 。 


‘Pp{Other Punctuationj 一 一 用 于 表示 其 他 所 有 标点 字符 : a a on F, 











例如 重 








各 种 字母 表 中 从 0 到 9 的 数字 (TEP, 











| \p (Control }——ASCII 和 Latin-l 编码 中 的 控制 字符 (TAB、LF、CR 等 )， 


\p{Format}—— FF] - Awe AOA LH, 
\p{Private Use} 分 配 与 私人 用 途 的 代码 点 【例如 公司 的 logo)。 
‘plUnassigned] 一 一 目前 尚未 分 配 字 符 的 代码 点 ， 





区 块 (Block) 。 区 块 类 似 〈 但 是 比 不 上 ) FRR, KER 
Unicode 字 从 映射 表 中 一 定 范 围 内 的 代码 点 。 例 如 ，Tibetan 区 块 表 是 从 
U+0F00 到 U+0FFF 的 256 个 代码 点 。 其 中 的 字符 ， 在 Perl 和 
java.util.regex Hay VA FAg\p{InTibetan}3<VL Ac, ZE.NET 中 可 以 用 
\p{IsTibetan}KVERC (HEUL) 。 

KRAVE MH, ETT VAS AAS RANK CAMA. ZK 
尔 、 基 本 拉丁 语 、 西 里 尔 文 等 等 ) » DARIN SESE CER Ai 
头 、 文 本 框 、 印 刷 符 号 等 ) 。 

Tibetan 是 一 个 典型 的 区 块 ， 因 为 其 中 的 所 有 字符 都 是 按照 西藏 文 
定义 的 ， 此 区 坎 之 外 不 存在 专属 于 疼 语 的 字符 。 不 过 ， 区 块 仍然 不 如 字 
母 表 ， 原 因 如 下 : 

e 芭 块 可 能 包含 未 赋值 的 代码 点 。 例 如 ，Tibetan 区 块 中 大 约 有 25% 
的 代码 点 没有 分 配 字 人 符 。 

e 开 不 是 看 起 来 与 区 块 相关 的 所 有 他 从 都 在 区 块 内 部 。 例 如 ， 在 
Currency KR PRAIA Re Si’, thea ay LAS. e e © 
MY (SAU, OAR BTA A currency) V\p{Sc}) 。 

0X th AARNE. BUY (表示 “元 ”) 属于 
Latin_1_SupplementlX $k . 

e BTRITFRAN SAU REINA TSK. WO, hee 
符 同时 出 现在 Greek 和 Greek Extended[X #4. 

对 区 块 的 支持 比 对 字母 表 的 支持 更 普遍 。 不 过 这 两 者 很 容 多 泥 清 ， 
因为 在 命名 上 存在 许多 重 登 〈 例 如 ，Unicode 同 时 提供 了 Tibetan 字 母 表 
AlTibetanIX Et) 。 

此 外 ， 按 照 下 页 的 表 3-10 所 示 ， 这 些 命 名 本 吴 也 没有 统一 的 标准 。 
在 Perl 和 java.util.regex 中 ，Tibetan 区 块 表 示 为 \p{InTibetan} ， 但 是 
在 .NET 中 义 表示 为 \p{lIsTibetan} CEE], Per PiX Tibetan r 
母 表 的 为 一 种 表示 法 )。 

其 他 属性 (Other properties/qualities) 上面 介绍 的 知识 并 不 是 通用 
的 。 表 3-10 详 细 介 绍 了 它们 的 适用 情况 。 

要 种 元 的 是 ，Unicode 还 定义 了 许多 能 够 通过 \p{...} 结构 访问 的 属 
性 ， 其 中 包括 字符 的 书 与 顺序 环视 〈 从 左 至 右 还 是 从 右 人 至 左 ， 等 等 ) 、 
与 字符 相关 的 元 音 ， 以 及 其 他 属性 。 有 些 实现 方式 还 容许 用 户 根 据 需 要 
临时 创建 属性 。 请 参考 具体 的 程序 提供 的 文 档 了 解 细 丰 。 

表 3-10: 属性 /字母 表 / 区 块 的 文 持 情 况 


V 基本 属性 ， 例 如 \p{ 工 ] 
V 基本 属性 缩 略 表示 法 ， 例 如 \pL 

基本 属性 缩 略 表示 法 , 例如 \p{IsL} |V 
/基本 属性 的 全 名 ,例如 \p{Letter】 
V 复合 属性 ， 例 如 \p{LS] 


y 字母 表 ， 例 如 \p{1Greek} / | / 
FERDA, Plie\p(IsGreek} |V 


V 区 块 ， 例 如 \p{fCyrillic] 







W 区 块 全 名 ,例如 \p{InCyrillic) 
区 块 全 名 ， 例 如 \p{IsCyrillic] 
V 排除 功能 ， 例 如 P{…] 
排除 功能 ， 例 如 \p{^ 
/\p{Any} 
/\p{Assigned} 
/\p{Unassigned} | 
以 Y 开头 的 行 是 新 实现 方式 中 推荐 的 用 法 (请 参考 第 91 页 的 版 本 信息 ) 


稍 单 的 字符 组 减法 : [[a-z]-[aeiou]] 

.NET 提供 的 子 符 组 "减法 "容许 我 们 在 字符 组 中 进行 减法 运 ai. W 
4, ‘'[[a-z]-[aeiou]], 匹配 的 字符 就 是 '[a-z] 和 # 够 匹配 字符 的 减 去 [ceiou] 
能 够 匹配 的 字符 ， 也 就 是 ASCII 编 码 中 小 写 的 非 元 音字 母 。 

男 一 个 例子 是 Mp{P}-[\p{Ps}\p{Pe}]] ， 它 能 够 匹配 \p{P} 中 除 
[pfPs}pfPej] 之 外 的 字符 ， 也 束 是 说 ， 它 能 匹配 除了 》 和 (之 类 成 对 
的 ] 全 号 之 外 的 所 有 标 . S ai 

完整 的 字符 组 集合 运算 : [[a-z]&&[Aaeiou]] 

na regex rt 从 组 能 够 进行 完整 的 集合 运算 
OF, 减 、 交 ) 6 ERRERA BI AP Te EPA bE 〈 匹 其 
T 在 Java 中 匹配 小 与 非 元 音字 全 的 字符 组 [[a-zj&&[Aaeiou]]) 在 详细 
介绍 减法 之 前 ， 我 们 先 来 看 两 个 简单 的 集合 运算 : OR 和 AND。 

OR 容许 用 户 以 字符 组 方式 在 字符 组 中 添 吉 字 符 [abcxyz] 也 可 以 表 


示 为 [[abc][xyz]]、[abc[xyz]] 或 [[abc]xyz] 等 等 。OR 用 来 把 多 个 集合 合并 
为 新 的 集合 。 从 概念 上 说 ， 它 有 点 像 多 种 语言 提供 的 “ 控 位 或 ”运算 

符 : 中 或 是 "or 。 在 字符 组 中 ，OR 只 不 过 是 一 种 简 记 法 ， 尽 管 包 括 排 除 
型 字符 组 在 某 些 情况 下 更 方便 。 

AND 对 两 个 集合 进行 概念 上 的 “与 ?运算 ， 只 保留 同时 属于 两 个 字符 
组 的 字符 。 它 的 写法 是 在 两 个 字符 组 中 添加 特殊 的 字符 组 元 字符 &&。 
例如 [\p{InThaij&s&nsP{Cnj， 它 通过 对 \p{fInThai} 和 \P{Cn} 进 行 交 运算 
(只 保留 同时 属于 两 个 集合 的 字符 ) ， 匹 配 Thai 区 块 中 所 有 已 经 赋值 的 
代码 点 。\P{...} 中 的 了; 是 大 写 ，[ 匹 配 不 具备 此 属性 的 字符 ， 所 以 \P{Cn} 
玫 配 的 就 是 除 未 赋值 的 代码 点 之 外 的 代码 点 ， 也 束 是 已 经 赋值 的 代码 点 
(要 是 Sun 能 够 识别 已 赋值 属性 (Assigned quality) , Win UH 
\p{Assigned} ##@\P{Cn}) 。 

请 不 要 混 消 OR 和 AND。 它 们 的 含义 取决 于 用 户 的 看 法 。 例 如 [[this] 
[thatj] 旋 作 *[this] 或 者 [thatj 匹 配 的 字符 ”， 其 实 它 的 真正 意思 是 “[this] 和 
[that] 能 够 匹配 的 所 有 字符 ”， 这 只 是 对 同一 个 问题 的 两 种 看 法 。 

相 比 之 下 ，AND 要 清楚 一 些 : [\p{InThai}&&\P{Cn} Jie Ee“ A DOA Ee 
p{InThai} 和 \P{Cn} 中 出 现 的 字符 ”， 尽 管 它 有 时 候 也 读 作 “匹配 属于 
\p{InThai} 和 \P{Cn} 的 交集 中 的 字符 。” 

看 法 的 不 同 可 能 会 造成 混乱 : 我 叫做 OR 和 AND fies, Fee 
可 能 叫做 AND 和 INTERSECTION。 

以 集合 运算 符 进 行 字 符 组 的 减法 \P{Cn} 可 以 写作 [Ap{fCnj]， 所 以 
在 死 配 *Thai block 中 已 经 赋值 的 字符 ?时 ，[\p{IPnTIhaij&gS&xP{Cnhj 也 可 以 
写作 [\p{InThai}&&[ 八 p{Cn}]]。 这 样 的 改变 并 没有 多 少 音 义 ， 只 是 它 有 
助 于 说 明 一 个 通用 的 模式 : “Thai block 中 已 赋值 字符 ” 比 “ 所 有 Thai block 
中 的 字符 ， 减 去 未 赋值 的 字符 ”更 好 理解 ， 于 是 我 们 知道 
[piinThal es pico} 1) 5. —..\pi inthe)». \picnt,, 


OE al BY ASA FPA '[[a-zj]&&[^aeiou]] WRI, FEB A 
如 何 进 行 字符 组 的 减法 了 了 。 其 模 陈 为 : [this&g&[Athat]] 表示 “[this] 减 去 
[thatj”。 我 发 现 用 && 和 [^...] 进 行 双重 否定 很 难 记 忆 ， 所 以 记 住 模式 工 .… 
R&A... J], We T o 

通过 环视 功能 模拟 字符 组 的 集合 运算 ”如果 所 使 用 的 程序 不 文 持 字 
符 组 集合 运算 ， 但 支持 环视 功能 (133) ， 则 可 以 自己 模拟 集合 运 

[ A 
算 。 Tp Linthat yee p(n) arp) pep eth eS mk 


(2! hai 7 re oy pee 
(?tptcn}) \etinthat}s (13) 。 尽 管 它 并 不 如 内 建 的 集合 运算 有 

















效率 ， 环 视 仍 然 是 非常 方便 的 做 法 。 这 个 例子 可 以 用 4 种 不 同 的 方式 来 
实现 〈 在 .NET 中 需要 以 IsThaif##InThai 125) 。 
1 
(2?=\P{Cn}) \p{InThai} 
VWoilntiai} (7<! yC) 
\p{InThai} (?<=\P{Cn}) 
POSIX“ 字 符 组 ” 方 插 号 表示 法 
我 们 通常 所 说 的 字符 组 ， 在 POSIX 标 准 中 称 为 方 括号 表达 式 
(bracket expression) 。POSIX 中 的 术语 “字符 组 ” 指 的 是 在 方 括 号 表达 
th GE 14) 内 部 使 用 的 一 种 特殊 的 功能 (special feature) ， 而 我 们 可 以 
认为 它们 是 Unicode 的 字符 属性 的 原型 。 
POSIX 字 符 组 是 POSIX 方 括号 表达 式 使 用 的 几 种 特殊 元 字符 序列 之 
一 。 比 如 [: lower: ] 表 示 当 前 locale (587) 中 的 所 有 小 写字 母 。 对 丙 
文 文本 来 说 ，[: lower: “EF a-z。 因 为 整个 序列 只 有 在 方 括 号 表达 式 
内 才 是 有 效 的 ， 所 以 对 应 的 完整 的 字符 组 应 该 是 '[[: lower: J] 。 这 种 
表示 法 的 确 很 难看 。 但 是 ， 它 比 '[a-z] 更 好 用 ， 因 为 它 能 包含 6, 六 之 类 
当前 locale 中 定义 的 “小 写字 母 ”。 
POSIX 字 从 组 的 详细 列表 根据 locale 的 变化 而 变化 ， 但 是 下 面 这 些 
EH Fy A RE SC: 
: anum: ] 字母 字符 和 数字 字符 。 
: alpha: ] FEE. 
: blank: ] 空格 和 制 表 符 。 
: cntrl: ] 控制 字符 。 
: digit: ] XS. 
: graph: IETF 《〈 即 空白 字符 ， 控 制 字符 之 外 的 字符 ) 。 
: lower: |] 小 写字 母 。 
: print: ] 类 似 [: graph: ]， 但 是 包含 空 日 字符 。 
: punct: ] PATS o 
: space: ] 所 有 的 空白 字符 (: blank: ]、 换 行 符 、 回 车 符 及 其 


Fe UP S ee ee de ee ol eN 


他 ) 。 

[: upper: ] 大写 字母 。 

[: xdigit: ] 十 六 进 制 中 容许 出 现 的 数字 【例如 0-9a-fA-F) 。 

支持 Unicode 属 性 (5121) 的 系统 可 能 会 在 Unicode 支 持 中 加 入 这 
些 POSIX 结 构 。Unicode 属 性 结构 更 为 中 大， 所 以 如 果 可 能 ， 这 些 结构 
应 该 有 提供 。 


POSIX“collating¥ 4)” 7 446-5 AE: + [[.span-ll.]] 

Local 可 以 包含 对 应 的 collating 序 列 ， 用 来 决定 其 中 的 字符 如 何 排 
序 。 例 如 ， 在 西班牙 语 中 ， 按 照 惯 例 ，1 两 个 字母 在 排序 时 作为 一 个 过 
辑 字 人 符 《例如 在 tortilla 中 ) ， 排 在 1 和 mm 之 间 ， 日 尔 受 语 字 母 8 位 于 $ 和 ft 中 
间 ， 但 是 排序 时 类似 它 等 价 于 两 个 字母 ss。 这 些 规 则 可 能 用 collating 序 
列 命名 来 表示 ， 例 如 ，span-11] 和 eszet。 

collating 序 列 会 把 多 个 实体 字符 映射 到 单个 多 辑 字符 ， 在 Span-1 的 
例子 中 ，1 被 视 为 “一 个 字符 ”， 来 保持 与 POSIX 正 则 引擎 的 兼容 。 也 残 
是 说 ，'[Aabc] 能 够 匹配 1 两 个 字母 。 

collating ”序列 的 元 系 可 以 包含 在 方 反 号 表达 式 中 ， 使 用 [.....] 表 示 
法 : 'torti[[.span-ll.]j]ja 匹配 tortilla。 单 个 collating 序 列 可 以 匹配 组 合 而 成 
的 字符 。 此 种 情况 下 ， 方 括 志 表达 云 可 以 匹配 多 个 实体 字符 。 

POSIX“ 字 和 从 等 价 类 ” 方 括号 表示 法 : [[=n=]] 

有 的 locale 定 义 了 字符 等 价 类 ， 表 示 茶 些 字 符 在 进行 排序 之 类 的 操 
作 时 应 视 为 等 价 。 例 如 ， 某 locale 可 能 定义 了 这 样 一 个 等 价 类 ‘nm’， 包 仿 n 
和 让， 或 者 是 男 一 个 等 价 类 ‘a?， 包 含 8、& 和 。 等 价 类 的 表示 法 类 似 [: 
wo ]， 但 是 用 等 号 取代 骨 亏 ， 我 们 可 以 在 方 括号 表达 陈 中 引用 这 些 等 
IK: '[[=n=][=a=]] 能 够 匹配 刚才 出 现 的 任意 一 个 字符 。 

如 末 一 个 字符 等 价 类 的 名 称 只 包含 一 个 字母 ， 但 没有 在 locale 中 有 定 
义 ， 则 和 它 默 认 束 等 于 同样 名 字 的 collating 序 列 。local 通 稍 包 含 作 为 
collating 序 列 的 普通 字符 [.a.]、[.b.]、[.c.] 之 类 如 果 没 有 定义 特殊 的 
等 价 类 ，'[[=n=][=a=]] ot [nal], 。 

Emacs 语 法 类 

GNU ”Emacs 不 支持 传统 的 \w 、Ns 之 类 ; 相反 ， 它 使 用 特殊 的 序 
列 来 引用 “语法 类 (syntax classes) ”: 

\schar 匹配 Emacs 语法 关中 char 摘 述 的 字符 。 

\Schar 匹配 不 在 Emacs 语法 类 中 的 字符 。 

| sw 匹配 “构成 单词 Cword constituent) ”的 字符 ， 而 ^s- UMT 
日 字符 ”。 在 其 他 系统 中 ， 它 们 分 别 写作 w 和 ns 。 

Emacs 的 特殊 之 处 在 于 ， 在 Emacs 中 ， 这 些 字 符 组 包含 的 字符 是 可 
以 临时 更 换 的 ， 所 以 ， 构 成 单词 的 字符 组 中 的 字符 可 以 根据 所 编辑 文本 
的 变化 而 变化 。 





RAKHE SKEDE ” 


Anchors and Other"Zero-Width Assertions" 

ie Fl A At 2S TR Ft Se PFE AN SEBS CAS, EAP FRC AR R 
的 位 置 。 

行 /字符 串 的 起 始 位 置 : 人 VA 

及 字符 人 匹配 需要 搜索 的 文本 的 起 始 位 置 ， 如 果 使 用 了 增强 的 行 
销 点 匹配 模式 〈 到 112) ， 它 还 能 匹配 每 个 换行 符 之 后 的 位 置 。 在 某 些 
系统 中 ， 增 强 模 式 下 人 还 能 匹配 Unicode 的 行 终结 符 C109) 。 

如 果 可 以 使 用 ， 则 无 论 在 什么 匹配 模式 下 ，A\A 总 是 能 够 匹配 竺 搜 
索 文 本 的 起 始 位 置 。 

行 /字符 串 的 结束 位 置 : $、\Z 和 \z 

从 下 一 页 的 表格 3-11 可 以 看 出 , “ 行 结束 位 置 Cend of line) ”的 概念 
比 行 开头 位 置 要 复杂 。 在 不 同 的 工具 软件 中 ，'$ 的 意义 也 不 同 ， 不 过 
最 常见 的 意思 是 罗 配 目标 字符 串 的 末尾 ， 也 可 以 匹配 整个 字 和 剑 串 末尾 的 
换行 从 之 前 的 位 置 。 后 一 种 情况 更 为 常见， 它 容许 's$ 《匹配 < 以 

s 结 尾 的 行 ?) 来 匹配 …s 央 ， 即 以 s 和 换行 符 结尾 的 行 。 

$ 的 另 两 种 利 见 的 意思 是 ， 只 匹配 目标 文本 的 结束 位 置 ， 或 是 匹 
配 任何 一 个 换行 符 之 前 的 位 置 。 在 东 些 Unicode 系 统 中 ， 这 些 规则 中 的 
换行 符 会 被 蔡 换 为 Unicode 的 行 终结 符 (109) (Java 为 了 处 理 
Unicode 的 行 终结 符 ， 为 $ Boe SAP MARTA 370) 。 

ILRI C112) 可 以 改变 人 的 意义 ， 匹 配 字 符 串 中 的 任何 换行 
符 ( 或 者 是 Unicode 中 的 行 终结 符 〉。 

UMRL, NZ 通 闸 表示 “未 指定 任何 模式 下 *”'$ 匹配 的 字符 ， 通 第 
征 字 符 串 的 末尾 位 置 ， 或 者 是 在 字符 串 末 尾 的 换行 符 之 前 的 位 置 。 作 为 
ZR \z 只 匹配 字符 串 的 末尾 ， 而 不 考虑 任何 换行 符 。 表 3-11 中 列 出 
了 少数 例外 。 

表 3-11: 脚本 语言 中 的 行 锚 点 


条 E Java Perl PHP Python Ruby Tcl NET 


正 第 情况 

^ ERFA PRLE / Y / / / / / 
^ 匹配 任意 换行 符 /, 

$ 匹配 字符 囊 的 结束 位 置 V vv vv vv v/v 4 ~ 
s rezignema O vv vv vv 7 / 
S 匹配 任何 换行 符 $ 

提供 增强 型 行 锚 点 模式 (7112) | V / / r / / 


BRAT RM AR A P 


© 匹配 字符 串 的 起 始 位 置 / / / / NA Vv / 
^ 匹配 任何 换行 符 之 后 的 位 置 |v, Vv / 7 NA ‘7 / 
$ 匹配 字符 串 的 未 尾 / / / / NA {£ / 
$ 匹配 任何 换行 符 之 衣 的 位 置 Y / / / NA od / 
人 总 是 与 普通 的 ^ 一 样 4 Vv v/v v/v 4 4 od 
\2 总 是 与 普通 的 $ 一 样 Y Y / 3 *5 / / 
(\2 BREATH HRA / / f NA NA  V / 


注 : 
在 这 些 情 况 下 ，Sun 的 Java regex package 支 持 Unicode 的 行 终结 符 (S109) 。 
Ruby 的 $ 和 人 能 匹配 字符 串 中 的 换行 符 ， 但 是 \A 和 \zZ 则 不 能 。 
Python 的 \Z 只 能 匹配 字符 串 的 结束 位 置 。 
Ruby 的 \A 与 ^ 不 同 ， 只 能 匹配 字符 串 的 起 始 位 置 。 
Ruby 的 \Z 与 $ 不 同 ， 可 以 匹配 字符 串 的 结尾 位 置 ， 或 是 字符 串 结尾 的 换行 符 之 前 的 位 置 。 
(请 参考 第 91 页 的 版 本 信息 ) 


匹配 的 起 始 位 置 〈 或 者 是 上 一 次 匹配 的 结束 位 置 ) : \G 

NG 首先 出 现在 Penl 中 。 在 使 用 /g〈 到 51) 的 匹配 中 ，\G 对 迭代 操 
作 非 常 有 用 ， 它 能 够 匹配 上 一 次 匹配 结束 的 位 置 。 在 第 一 次 迭代 时 ， 
\G 匹配 字符 串 的 开头 ， 与 \A 一 样 。 

如 果 匹 配 不 成 功 ，NG 的 匹配 会 重新 指 同 字符 串 的 起 始 位 置 。 这 








者 在 其 他 语言 中 调用 “ 找 出 所 有 匹配 (match all) ”函数 ， 在 匹配 失败 的 
EET, AG 也 会 指向 字符 串 的 开头 位 置 ， 这 样 以 后 进行 其 他 类 型 的 匹配 
操作 便 不 党 影 啊 。 

根据 我 的 观察 ，Perl 的 \G 有 3 个 值得 注意 而 且 很 有 用 的 方面 : 

e [\G 的 指 问 位 置 是 每 个 目标 字符 串 的 属性 ， 而 不 是 设 定 这 些 位 置 
的 正则 表达 式 的 属性 。 也 束 是 说 ， 多 个 正则 表达 式 可 以 依次 对 同一 个 字 
符 串 进行 匹配 ， 都 使 用 上 一 轮 匹 配 设 定 的 AG o 


eper! 的 正则 运算 符 有 一 个 选项 (Perl 的 /c 修 饰 符 醚 315) ， 它 规定 
了 ， 如 果 匹 配 失败 ， 不 要 重新 设 定 \G ， 而 只 是 保持 之 前 的 值 不 变化 。 
如 采 结 合 上 面 那 一 点 ， 束 可 以 从 采 个 位 置 开 始 答 试 用 多 个 正则 表达 陈 进 
行 死 配 ， 直 到 匹配 能 够 成 功 ， 然 后 在 下 面 的 文本 中 继续 寻找 匹配 。 

e [\G 对 应 的 属性 可 以 用 与 正则 表达 式 无 关 的 结构 (Perl 的 pos 函 数 
F313) 来 检查 和 修改 。 可 能 有 人 布 望 设 定 这 个 位 置 来 “规定 ”从 什么 位 
置 开 始 寻找 匹配 ， 以 及 只 从 那个 位 置 开 始 的 匹配 。 同 样 ， 如 果 语 言 支持 
本 条 功能 ， 而 没有 十 接 提 供 上 一 条 功能 ， 我 们 可 以 用 本 条 功能 来 模拟 。 

下 页 的 补充 内 容 中 有 个 例子 展示 了 这 些 特 性 的 用 法 。 除 了 这 些 便捷 
之 外 ，Perl 的 \G 还 存在 一 个 问题 ， 即 它 必 须 出 现在 正则 表达 式 的 开 
头 ， 这 样 才 能 正和 工作。 不 过 笠 运 的 是 ， 这 似乎 是 最 自然 的 用 法 。 

之 前 匹配 的 结束 位 置 ， 还 是 当前 匹配 的 开始 位 置 ? 

不 同 的 实现 方式 之 间 存 在 一 个 区 别 ，AG 匹配 的 到 确 是 “当前 匹配 
的 起 始 位 置 ”还 是 “机 一 次 匹配 的 结束 位 置 "。 在 绝 大 多 数 情况 下 ， 这 两 
者 是 等 价 的 ， 所 以 大 多 数 时 低 这 个 问题 并 不 要 紧 。 但 也 有 些 不 常见 的 情 
况 下 ， 它 们 是 有 区 列 的 。215 页 有 个 例子 说 明了 这 种 情况 ， 不 过 最 容 吻 
的 还 是 用 一 个 专门 的 例子 来 理解 : 把 x? 应 用 到 ‘abcde’。 这 个 表达 式 
能 够 在 ”abcde' 匹 配 成 功 ， 但 其 实 它 没 有 匹配 任何 文本 。 在 进行 全 局 查 
找 - 符 换 时 ， 正 则 表达 陈 会 重复 应 用 ， 每 次 处 理 上 一 次 操作 之 后 的 文 
本 ， 除 非 传 动 装置 会 做 些 特 别 的 处 理 ,，“ 上 次 匹配 完成 的 位 置 > 总 是 它 开 
始 的 位 置 。 为 了 避免 无 穷 循 环 ， 在 这 种 情况 下 传动 装置 会 强行 前 进 到 下 
一 个 字符 (s148) ， 如 果 对 ‘abcde’ 应 用 s/x? /! /g， 结 果 就 是 ‘! a! b! 
c! d! e!l’, 

传动 装置 这 样 处 理会 带 来 一 个 问题 : “上 一 次 匹配 的 终点 ”不 等 
于 “本 次 匹配 的 起 点 >”。 如 果 是 这 样 ， 问 题 丈 来 了 : AG 匹配 哪个 位 置 
We? 在 Perl 中 ， 对 'abcde' 应 用 s\Gx? /! /g 得 到 '‘! abcde*， 所 以 我 们 知 
道 ， 在 Perl 中 ， AG 只 匹配 上 一 次 匹配 的 结束 位 置 。 如 果 传 动 装 置 上 自行 
驱动 ，Perl 的 \G 肯 定 无 法 匹配 。 

太 一 方面 ， 在 其 他 有 茶 些 工具 软件 中 使 用 同样 的 得 找 - 蔡 换 命令 ， 会 
得 到 ‘! a! b! c! d! e! :， 也 残 是 说 \G 是 在 每 次 匹配 的 起 始 位 置 匹配 成 
TH, PRS Tae ETT KS o 

KF \G 的 匹配 ， 也 不 能 完全 相信 文档 ， 人 微软 的 .NET 和 Sun 的 Java 
文 要 ， 在 我 通知 这 两 家 公司 之 前 ， 都 是 错误 的 〈 然 后 他 们 才 修 正 ) 。 现 
在 的 状态 就 是 ，PHP 和 Ruby 中 的 \G 指向 当前 匹配 的 开头 位 置 ， 而 
Perl 、java.utilregex 和 .NETI 匹 配 上 一 次 匹配 的 结束 位 置 。 


Perl 中 \G 的 高 级 用 法 


下 面 的 程序 对 $html 中 的 HTML 代码 进行 简单 的 校 验 ， 确 保 其 中 只 有 少数 几 种 HTML 
结构 (例如 <IMG> 和 <A>， 以 及 ggt;)。 在 Yahoo! 我 用 这 种 方法 确保 用 户 提交 的 HTML 
符合 某 些 规范 。 
这 段 代码 中 最 重要 的 就 是 Perl 的 m/…/gc 匹配 操作 符 ， 它 会 把 这 个 正则 表达 式 一 次 性 
应 用 到 目标 字符 串 ， 下 一 次 匹配 从 上 一 次 成 功 匹 配 之 后 的 文本 开始 ， 如 果 匹 配 失 败 ， 
也 不 会 重新 设 定 position (7315), 
这 样 ， 我 们 就 能 用 包含 多 个 表达 式 的 “tag team” 来 检查 字符 事 。 从 理论 上 说 ， 它 好 像 
对 所 有 这 些 表达 式 进行 整体 的 先 代 ， 但 是 这 段 程序 的 执行 单位 不 是 一 次 表达 式 而 是 一 
次 匹配 ， 而 且 能 够 临时 新 增 或 排除 某 些 表达 式 。 

my Sneed close anchor = 0; # 如 果 遇 见 了 <A> 而 没有 对 应 的 </A>， 则 返回 True 


while (not $html =~ m/\G\z/gc) # 在 整个 字符 事 没 有 处 理 完 之 前 
{ 

if ($html =~ m/\G(\wt)/gc) { 

PRSI 中 包含 数字 或 单词 一 一 可 以 检查 语言 的 规范 性 ,.， 

} elsif ($html =~ m/\G[*<>é\w]+/gqc) { 
# 其 他 非 HTML 代码 一 一 无 关 紧 要 
elsif ($html =~ m/\G<img\s+([^>]+)>/gci) { 
... A image tag 一 一 可 以 检查 它 是 否 符合 规范 . . . 





— 





elsif (not $need close anchor and $html =~ m/\G<A\st([*>]+)>/qci) { 
.. .包含 超 链接 ， 这 里 可 以 进行 验证 ... 


—— 


Sneed close anchor = 1; # 我 们 现在 需要 的 是 </A> 

elsif ($need close anchor and $html =~ m{\G</A>}gci) { 

Sneed close anchor = 0; # 需求 已 经 满足 ， 不 再 容许 出 现 

elsif ($html =~ m/\G&(#\d+<\wt) ;/gc) { 

# 容许 出 现 &gt; 和 &#123; 之 类 的 entity 

else {# 此 处 完全 无 法 匹配 ，, 必 然 有 错误 ， 记 下 当前 位 置 ， 从 HTML 中 提取 若干 字符 ,报告 错误 

my Slocation = pos ($html); # 记 下 这 段 HTML 的 起 始 位 置 

my (Sbadstuff) = $html =~ m/\G(.{1,12})/s; 

die "Unexpected HTML at position S$location: S$badstuff\n"; 
} 

} 


T 


i 


—— 


# 确保 没有 孤立 的 <A> 
if ($need close anchor) { 
die "Missing final </A>" 
| 


单词 分 界 符 : \D. B, A<, \>... 

单词 分 界 人 符 的 作用 与 行 锁 点 一 样 ， 也 是 匹配 字符 串 中 的 菜 些 位 置 。 
单词 分 界 符 可 以 分 为 两 类 ， 一 类 中 单词 起 始 位 置 分 界 符 和 结束 位 置 分 界 
符 是 相同 的 〈 通 党 是 过 和 \>) ， 另 一 类 则 以 统一 的 分 界 符 来 匹配 〈 通 
Eb) 。 两 类 都 提供 了 非 单词 分 界 人 符 序 列 〈 通 第 是 B) 。 表 3-12 给 出 
了 一 些 例子 。 如 果 所 使 用 的 工具 软件 没有 提供 单独 的 起 始 位 置 和 结束 位 
置 分 界 符 ， 但 支持 环视 功能 ， 用 户 也 可 以 用 它 来 模拟 那 两 种 单词 分 界 
‘Fo FE RISER, CREEP ARATE Bia, Re 
列 出 实践 中 的 做 法 。 

单词 分 界 人 符 通 党 可 以 这 样 理解 ， 这 个 位 置 的 一 按 是 “单词 字符 
(word character) ”， 另 一 边 则 不 是 。 每 种 工具 软件 对 “单词 字符 ”的 理 
解 都 不 一 样 ， 对 单词 边界 的 理解 也 是 这 样 。 如 果 单 词 分 界 符 等 于 \w 当 然 
好 办 ， 但 很 多 时 候 事实 并 非 如 此 。 人 例如， 在 PHP 和 java.util.regex F, \w 
只 能 匹配 ASCII 字符 ， 而 不 是 Unicode 字符 ， 所 以 在 表格 中 我 会 使 用 带 
有 Unicode 单 词 属性 \pL Cake \p{L} 的 缩 略 表示 法 守 121) 的 环视 功 
HE o 

无 论 单词 分 界 符 怎 么 定义 “单词 字符 ”， 单 词 分 界 符 的 测试 通 利 只 是 
简单 的 字符 相 邻 测试 。 所 有 的 正则 引擎 都 不 会 对 单词 进行 语意 分 机 : E 
们 认为 *NE14AD8 "是 一 个 单词 ， 而 “<M.LT.” 不 是 。 

顺序 环视 C2 =...) 、(? ! ...) ; 逆序 环视 (? <a). (2 
= ...) 

fe A — “Ee EU A Ss” C59) 的 例子 中 ， 我 
们 已 经 介绍 过 顺序 环视 和 逆序 环视 结构 〈 统 称 为 环视 ) 。 但 关于 它们 还 
有 很 重要 的 一 点 没有 介绍 ， 那 束 是 环视 结构 中 能 够 出 现 什 么 样 的 表达 
式 。 大 多 数 实现 方式 都 限制 了 逆序 环视 中 的 表达 式 的 长 度 《〈 但 是 顺序 环 
钢 则 没有 限制 ) 。 

Perl 和 Python 的 限制 是 最 严格 的 ， 诸 序 环 视 只 能 匹配 固定 长 度 的 文 
本 。 使 用 (? <! \w) 和 (? <! thislthat) 不 会 出 错 ， 但 是 Q? <! 
books? ) 和 (? <! Awt: ) 则 不 行 ， 因 为 它们 匹配 的 文本 的 长 度 是 
不 确定 的 。 某 些 情况 下 ，(〈? <! books? ) 可 以 重 写 为 ' (? <! 
book) (? <! books) ,， 尽 管 第 一 眼看 上 去 它 并 不 好 理解 。 

表 3-12: 若干 工具 软件 中 使 用 的 单词 分 界 符 元 字符 





程序 =e 非 单词 分 界 符 
GNU awk > | ‘\> \B | 
GNU egrep 

Java (?<!pL) (?=\pL) ++ (?<=pL) (?!\pL) \Be 

MySQL [<:]]……[[:>:]] [FT 

NET (2<!\w) (2=\w) …(2<=NW) (?1\w) \B 

Perl (2<!\w) (2=\w) + (2?<=\w) (2! \w) \B 

PHP (2<!pL) (2=\pb) we (2<=pL) (2!\pb) \Ba 

Python (2<!\w) (2=\w)  (2<=\w) (2! \w) \B 

wy | G 

加 表示 只 能 对 ASCII 中 的 字符 (或 者 是 基于 locale 的 8 位 编码 数据 ) 有 效 ， 即 使 该 流派 支持 
Unicode 也 是 如 此 。 





局 一 层次 的 文 持 容许 堵 序 环视 中 出 现 不 同 长 度 的 多 选 分 文 ， 所 以 

(? <! books? ) 可 以 写作 (? <! booklbooks) > PCRE (因此 也 包 
HPHP Kipre F) 文 持 此 功能 

最 高 层次 的 文 持 可 以 匹配 任意 长 度 的 文本 ， 只 是 其 长 度 不 能 为 无 
BR. | C2? <! books? ) 可 以 耳 接 使 用 ,但 是 (? <! Awt: ) 则 不 
Ce Sun 的 Java regex package 文 持 

人 这 三 级 文 持 其 实 是 一 样 的 ， 因 为 它们 都 表达 同样 
的 意思 ， 尺 ad 式 可 能 不 太 好 看 ， 而 且 对 匹配 的 长 上 度 进行 了 严 
格 的 限制 。 中间 一 只 不 过 是 “语法 (syntactic sugar) ”， 表 达 方 式 更 美 
观 而 已 。 而 第 UEG TEREN 寺 构 中 的 子 表 达 式 匹配 任意 长 度 的 
文本 ， 其 至 包括 '(? <! Awt: ) 。 微 软 的 .NET 就 支持 这 一 级 ， 它 无 
疑 是 最 棒 的 ， 但 是 如 果 运 用 不 当 ， a COR 
FAM Be te VOOR REN CAS, SAMAA R AY re i I 
ASFK, WOR A ae NR AEB A ei PN. RE a 
会 浪费 许多 工夫 ) 。 


注释 和 模式 修 钱 符 


Comments and Mode Modifiers 

在 许多 流派 中 ， 使 用 下 面 的 结构 ， 束 能 够 在 正则 表达 陈 凡 部， 切换 
使 用 之 前 介绍 的 正则 表达 式 模 式 和 [匹配 模式 (5110) 。 

模式 修饰 符 : (? modifier) ， 例 如 (?i) M C? -i) 

现在 ， 有 许多 流派 容许 在 正则 表达 式 中 设 定 逻 配 模式 (二 110) 。 
遇见 的 束 是 '(? i) ， 它 会 局 用 不 区 分 大 小 写 的 思 配 ， 而 '(? -i) 会 
停 用 此 功能 。 例 如 ，'<B> (? i) very (? -i) </B> 会 对 中 间 的 
very 进行 不 区 分 六 小 与 的 匹配 。 而 两 端的 tag 仍然 必须 为 大 写 。 它 可 
DAD fid‘<B>VERY</B>’ fl‘<B>Very</B>’, (AA REVEL ACS <b> 
Very</b>’. 

这 个 例子 在 大 多 数 文 持 '(? i) 的 系统 中 都 可 以 运行 ， 例 如 Perl、 
PHP, java.utilregex, Ruby 〈 注 15) 和 .NET。 在 Python 和 Tcl 中 则 不 行 ， 
因为 它们 不 文 持 0? -i) 。 

除 Python 之 外 ， 大 多 数 实 现 方式 中 ， | C? i) 的 作用 沁 围 都 只 限于 
括 写 内 部 (也 就 是 说 ， 在 闭 插 写 之 后 就 失效 ) 。 所 以 ， 我 们 可 以 拿 挥 
O -i ) ”， 将 整个 不 需要 区 分 大 小 写 的 部 分 放 在 一 个 括号 里 ， 把 '(? 
i) 了 放 在 最 前 面 : ‘<B> (? : (? i) very) </B> 。 

模式 修饰 符 中 能 够 出 现 的 不 只 有 宁 。 在 大 多 数 系 统 中 ， 我 们 至 少 可 
以 使 用 表 3-13 列 出 的 修饰 符 。 有 的 系统 还 提供 了 更 多 的 选项 。 比 如 PHP 
就 提供 了 少数 其 他 选项 (5446) ，Tcl 也 是 如 此 (请 参考 文档 ) 。 


表 3-13: 第 见 模式 修饰 从 字母 


字母 fe x 

i 不 区 分 大 小 写 的 匹配 模式 (7110) 
x 完 松 排列 和 注释 模式 (711) 

s 点 号 通 配 模式 (11 

m 38 18 HAT HH RA, (7112) 


模式 作用 范围 : (? modifier: ...) ， 例 如 C? i: ...) 

如 果 所 使 用 的 系统 文 持 模式 修饰 范围 ， 这 样 前 一 市 的 例子 可 以 更 加 
Ho | CO i: ...) ,表示 模 陈 修饰 符 的 作用 范围 只 有 在 括号 内 有 效 。 这 
样 ，'<B> (?: (2 i) very) </B> 就 可 以 化 简 为 [<B> (? i: 
very) </B>. 


如 条 文 持 ， 这 种 格式 一 般 可 以 应 用 于 所 有 的 模式 修饰 符 字 母 。Tal 
和 Python APF (C? i) RET, (AEN CP i: ...) 格式 。 

注释 : Q #...) AF... 

EEY IFAH C? H...) USER. SEI LE, GORI SC w 
松 排列 和 注释 模式 (过 111)〉 ， 束 很 少 使 用 这 种 功能 。 不 过 ， 如 果 在 字 
从 串 文 字 中 很 难 插入 换行 人 符 ， 用 这 种 格式 加 入 注释 就 非常 方便 ， 例 如 
VB.NET Rie MOI C99, 420) 。 

MAF MATE: \Q...\E 

\Q...\E@ APerlS|AW, ESTAR BRE ZS 7G FF A RR 
TL CG RIANE, MABE BIE MATAR) o ER PIN ATA F 
符 都 会 被 当成 普通 文字 文本 来 对 待 。 如 果 在 构建 正则 表达 式 时 包含 变 
量 ， 此 功能 束 非 党 有 用 。 

举例 来 说 ， 为 了 啊 应 Web 检 索 ， 我 们 可 能 希望 把 用 户 输入 的 内 容 伍 
存在 $query 中 ， 然 后 使 用 m/$querwWi。 但 是 ， 如 果 $query 包 侣 某 些 字符 ， 
例如 ‘C: \WINDOWSV， 结 果 是 运行 时 错误 ， 因 为 这 不 是 一 个 合法 的 正 
则 表达 陈 〈“ 了 最 后 有 一 个 单独 的 反 和 斜 线 ) 。 

\Q..A\E, 可 以 解决 这 个 问题 。 如 果 在 Perl 中 使 用 mAQ$gquery\E/i， 则 
$query 就 从 ‘C: \WIN-DOWSY 变 成 'C\: \\WINDOWS\\ ， 结 果 能 找到 用 
户 期 望 的 ‘C: \WINDOWS\’. 

但 是 在 面向 对 象 和 程序 式 处 理 〈( 寺 95) 中 ， 这 个 特性 的 用 处 要 打折 
扣 。 在 构建 需要 用 在 正则 表达 式 中 的 字符 串 时 ， 有 很 方便 的 函数 对 这 个 
值 “ 上 你 险 ”， 以 便 用 在 正则 表达 式 中 。 例 如 ， 在 VB 中 ， 我 们 可 以 使 用 
Regex.Escape (432) ; PHPtetk J preg _quotersi2% (470) ，Java 有 
quote 方 法 (395) 。 

就 我 所 知 ， 文 持 \Q...\E 的 引擎 只 有 java.util.regex 和 PCRE (也 包括 
PHP 的 preg 套 件 ) 。 请 注意 ， 我 刚刚 提 到 ， 这 个 功能 是 在 Penl 中 引入 的 
(而 且 我 给 出 了 Per 的 例子 ) ， 你 可 能 党 得 很 奇怪 ， 为 什么 刚刚 没有 提 
到 Perl。Perl 支 持 正 则 文字 中 的 \Q..AE 《也 束 是 直接 出 现在 程序 中 的 正则 
RIAA) ， 但 是 不 能 在 可 能 使 用 插值 的 内 容 和 变量 上 使 用 。 细 市 问题 请 
参考 第 7 章 (290) 。 

在 低 于 1.6.0 的 Java 中 ，java.util.regex 对 字符 组 中 的 \Q...\E 文 持 是 
不 可 靠 的 ， 不 建议 使 用 。 


分 组 ， 捕 获 ， 条 件 判 断 和 控制 


Grouping,Capturing,Conditionals,and Control 


捕获 /分 组 括号 : (...) 和 \1，\2，... 

普通 的 无 特殊 是 义 的 括号 通 音 有 两 种 功能 : oP ZAR EPS 
OLIN Bae! C...) o (AA ITIP A C.D ， 例 如 GNU 
Emacs. sed, vitllgrep. 

如 41、43 和 57 HA ARON, TRAE Ss Sin Se FZ TS h Bd 
WK, MESAR. WREE S RASH, Wa eS A We 
达 陈 匹配 的 文本 可 以 在 表达 式 的 后 面部 分 用 \L n2 来 引用 。 

括号 的 常用 功能 之 一 是 从 字符 串 中 提取 数据 。 括 与 中 的 子 表达 式 光 
配 的 文本 《也 可 以 称 为 “括号 匹配 文本 (the text matched by the 
parentheses) ”) 在 不 同 的 程序 中 可 以 通过 不 同 的 方式 来 引用 ， 例 如 Perl 
的 $1 和 $2 《第 见 的 铬 误 是 在 正则 表达 陈 之 外 使 用 \L ， 这 种 形式 只 在 sed 
和 vi 中 能 用 ) 。 下 一 页 的 雪 3-14 说 明了 各 种 程序 中 ， 匹 配 守 成 之 后 访问 
文本 的 方法 。 它 还 说 明了 访问 整个 表达 式 匹 配 的 文本 ， 或 者 茶 一 组 捕获 
型 括号 所 匹配 文本 的 做 法 。 

MAP OARS: CP :; ...) 

仅 用 于 分 组 的 括 亏 " C2? : ...) 不 能 用 来 提取 文本 ， 而 只 能 用 来 规 
定 多 选 结构 或 者 量词 的 作用 对 象 。 它 们 不 会 按照 $1、$2 之 类 编号 。 在 
(Lone) ©? : andlor) (2|two) 匹配 之 后 ，$1 包 含 汪 或 者 "one”，$2 
包含 2’ 或 者 ‘two’。 只 用 于 分 组 的 括 写 也 岂非 捕获 型 括 与 (non-capturing 
parentheses) 。 

非 捕获 型 括号 的 价值 体现 在 好 几 个 方面 。 它 们 能 够 把 复杂 的 表达 式 
变 得 清晰 ， 这 样 谈 者 不 会 担心 在 其 他 地 方 用 到 $1 会 产生 混乱 。 而 且 它们 
还 有 助 于 提高 效率 。 如 采 正 则 引擎 不 需要 记录 捕获 型 括号 匹配 的 内 容 ， 
速度 会 更 快 ， 所 用 的 内 存 也 更 少 〈 第 6 草 详细 讲解 效 靳 问题 ) 。 

非 捕 获 型 括号 的 男 一 个 用 途 是 利用 多 个 成 分 构建 正则 表达 式 。 在 第 
76 页 的 例子 中 ，$Host-nameRegex 保 存 的 是 用 来 匹配 主机 名 的 正则 表达 
却 。 如 条 使 用 它 来 手 取 主机 名 两 奖 的 空 日 ， 在 Penl 中 是 m/ Osx ) 
$HostnameRegex (sx ) /。 然 后 $1 和 $2 分 别 保 存 开 尖 和 结尾 的 空 日 ， 但 
nan 空白 其 实 是 保存 在 $4 中 的 ， 因 为 $HostnameRegex 包 含 两 组 捕获 型 
as o 

$HostnameRegex=ar/[-a-z0-9]+(\.[-a-z0-9]+) * \.(com|edulinfo)/i; 

423-14: AF LAER HEI AR RAI 


a 8 第 一 组 括号 .本 的 文本 





















GNU egrep N/A N/A 
GNU Emacs (match string 0) | (match-string 1) 
(replacement $f # ? 4\&) (replacement 他 符 事 中 为 \1) 
: Stet, RSTART, RLENGT | 

GNU awk re a roe ? mene $ \1 (在 gensub 替换 中 ) 

MySQL N/A N/A 

PHP 450 | Smatches [0] $matches [1] 

Python ©97 | MatchObj.group (0) MatchObj . group (1) 

by I 

GNU sed E replacement 字符 囊 中 使 用 ) \1 ( 只 能 出 现在 regex fe replacement 中 ) 
Java 705 MatcherObj . group (1) 

Tel 通过 regexp 命令 设置 为 用 户 选 择 的 变量 
VB.NET ®96 | MatchObj.Groups (0) | MatchObj . Groups (1) 

CH MatchObj .Gropus [0] MatchObj.Groups [1] 





i f 


(请 参考 第 91 页 的 版 本 信息 ) 


如 采 这 两 组 括 所 是非 捕 获 型 的 ， 我 们 了 吏 可 以 按照 直观 的 方式 使 用 
$HostnameRegex。 另 一 种 办 法 是 使 用 命名 捕获 ， 尽 管 Pernl 没 有 提供 这 种 
功能 ， 我 们 还 是 会 介绍 它 。 

命名 捕获 : ©? <Name>...) 

Python 和 PHP 的 preg 引 警 ， 以 及 .NET 引 擎 ， 都 能 够 为 捕获 内 容 命 
名 。Python 和 PHP 使 用 的 语法 是 '(? P<name>...) ， 而 .NET 使 用 
“(? <name>...) 。 我 更 喜欢 .NET 的 语法 。 下 面 是 一 个 .NET 的 例 
子 : 

[\b(? < Area >\d\d\d\)-(? < Exch >\d\d\d)-(? <Num>\d\d\d\d)b 

在 Python/PHP 中 是 这 样 : 

[ \b(?P=<Area>\d\d\d\)-(?P<Exch>\d\d\d)-(?P<Num>\d\d\d\d)\b 

这 个 表达 式 会 用 美国 电话 号 人 码 的 各 个 部 分 “填充 ”Area、Exch 和 Num 
命名 的 内 容 。 然 后 我 们 可 以 通过 名 称 来 访问 各 个 括号 捕获 的 内 容 ， 例 如 
在 VB.NET 和 大 多 数 .NET 语 言 中 ， 可 以 使 用 RegexObj.Groups (" Area 


") , ÆŒCH 11 AW RegexObj.Groups[ " Area" ]， 在 Python 中 使 用 
RegexObj.group ( " Area" ) ， 在 PHP 中 使 用 $matches[ " Area" ]。 这 样 
程序 看 起 来 更 清晰 。 

如 朵 要 在 正则 表达 式 内 部 引用 捕获 的 文本 ，.NET 中 使 用 \k 二 Area 
> ，Python 和 PHP 中 使 用 | (? P=Area) o 

在 Pyhon 和 .NET 《但 不 包括 PHP) 中 ， 可 以 在 同一 个 表达 式 中 多 次 
使 用 同样 的 命名 。 例 如 美国 电话 写 码 的 区 写 部 分 的 形式 是 ‘〈### 

H) RA HHH, A SULA, Bea DEA CALNETI#YA) : |... 
(? : \( (? <Area>\d\d\d) \) | (? <Area>\d\d\d) -) ...。 无 论 哪 
一 组 匹配 成 功 ， 都 会 把 3 位 的 区 号 保存 到 Area 中 。 

HATHA: (? >...) 

如 果 详 细 了 解 正 则 引擎 的 匹配 原理 (169) ， 束 很 容易 理解 固化 
分 组 。 在 这 里 只 说 一 点 ， 了 驶 是 一 旦 括 亏 内 的 子 表达 却 匹 配 之 后 ， 匹 配 的 
内 容 束 国定 下 来 (固化 (atomic) 下 来 无 法 改变 ) ， 在 接 下 来 的 匹配 过 
程 中 不 会 变化 ， 除 非 整 个 固化 分 组 的 括号 都 被 弄 用 ， 在 外 部 回 济 中 重新 
应 用 。 下 面 这 个 简单 的 例子 会 帮助 我 们 理解 这 种 匹配 的 “固化 ”性质 。 

| i. 类! pews VOM Hola! ’, (ew « 在 固化 分 组 和 (? >. 
x) ! 中 就 无 法 匹配 。 在 这 两 种 情况 下 ，'. 类 都 会 站 和 完 罗 配 尽 可 能 多 


的 内 容 这 2 )， 但 是 之 后 的 '! ,无 法 匹配 ， 会 强迫 .释放 之 前 下 
ACAI SHEA A (最 后 的 ‘! ，) 。 如 果 使 用 了 固化 分 组 ， 就 无 法 实现 ， 
为 [.X 在 固化 分 组 中 ， 它 永远 也 不 会 “交还 ”已 经 匹配 的 任何 内 容 。 

尽管 这 个 例子 没有 什么 实际 价值 ， 固 化 分 组 还 是 有 重要 的 用 途 。 励 
其 是 ， 它 能 够 提高 匹配 的 效率 C171) ， 而 且 能 够 对 什么 能 匹配 ， 什 
么 不 能 匹配 进行 准确 地 控制 C269) 。 

多 选 结 构 : ...|...|... 

多 选 结构 能 够 在 同一 位 置 测试 多 个 子 表达 式 。 每 个 子 表达 式 称 为 一 
个 多 选 分 文 (alternative〉。 人 符号 中 有 很 多 称呼 ， 不 过 “或 Cor) ”和 “ 坚 
线 Cbar) ”最 为 常见 。 有 的 流派 使 用 | 。 

多 选 结构 的 优先 级 很 低 ， 所 以 ‘this andlor that 的 匹配 等 价 于 ' (this 
and) | Cor that) ， 而 不 是 'this Candjor) that ， 虽 然 andlor 看 上 去 是 一 
A 

大 多 数 流派 都 容许 出 现 空 的 多 选 分 支 ， 例 如 “this1that 1 小。 空 
表达 式 在 任何 情况 下 都 能 匹配 ， 所 以 这 个 例子 等 于 Cthis|that) ? ” GE 
16) 。 


POSIX 标 准 禁 止 出 现 空 多 选 分 支 ，lex 和 大 多 数 版 本 的 awk 也 是 如 
此 。 我 认为 ， 考 虑 到 空 多 选 分 文 的 简便 和 清晰 ， 保 留 它 不 无 共处 。 
Lary ”Wall 告 诉 我 :“ 我 认为 ， 你 留 它 束 好 像 在 数学 中 你 留 0 一 样 有 意 
age 

SEF WT: 〈? if thenlelse ) 

这 个 结构 容许 用 户 在 正则 表达 式 中 使 用 if/then/else 判断 。if 部 分 是 
特殊 的 条 件 表 达 式 (a special kind of conditional expression) ， 下 文 马 上 
会 有 介绍 。then 利 else 部 分 是 普通 的 子 表 达 式 。 如 采 f 部 分 测试 为 真 ， 则 
党 试 then 的 表达 陈 ， 人 否则 答 斌 else 部 分 (else 部 分 也 可 以 不 出 现 ， 果 真如 
此 的 话 ， 可 以 符 略 小) 。 

让 的 种 类 因 流 派 的 不 同 而 不 同 ， 但 是 大 多 数 实 现 方式 都 容许 在 其 中 
引用 捕获 的 子 表达 式 和 环视 结构 。 

测试 对 捕获 型 括号 的 符 殊 引用 。 如 果 证 ”部 分 是 一 个 括号 中 的 编 
写 ， 而 对 应 编写 的 捕获 型 括号 参与 了 几 配 ， 其 值 为 “true”。 下 面 的 例子 
JLAC<IMG> tag， 无 论 古 是 单独 出 现 的 ， 或 者 是 在 二 A 二 ...</A 二 中 出 
现 的 。 代 码 采 用 珊 注 释 的 宽松 排列 格式 ， 条 件 判 断 结 构 〈 这 里 的 没有 
else 部 分 〉 以 粗 体 标注 。 

( <A\s+[*>]+> \s* )? # 匹配 开头 的 <A> tag， 如 果 存 在 的 话 

<IMG\s+[*>]+> # 匹配 <IMG> tag 

(? (1) \s*</A>) # 匹配 结尾 的 </A>， 如 果 之 前 匹配 过 <A> 


PC? C1) ...) 测试 中 的 (1) 会 测试 第 一 组 捕获 型 括号 是 合 参 
与 了 匹配 。“ 参 与 匹配 ?不 等 于 “实际 匹配 了 文本 >”， 来 看 个 简单 的 例子 : 

下 面 两 种 办 法 都 可 以 匹配 可 能 包含 在 “过 .…>” 中 的 单词 : 
CS) ?Wt C2 D >) 可 以 oT (<?) \wt C G) >) W 
ASST o ENZ TAI ME EK TE TS HS FES CIE 
确 的 ) 办 法 中 ， 问 写作 用 于 整个 捕获 型 括 写 ， 所 以 括 写 《以 及 包含 的 内 
A) 个 是 必须 匹配 的 。 在 第 三 个 例子 中 ， 捕 获 型 括 写 个 是 可 选 的 一 一 只 
有 其 中 的 '< Aye, MAL Oe BLA SMA, ERSS”. 
Hate, | C2? (1) ...) 中 的 if 部 分 总 是 “true”。 

如 朱 能 够 使 用 命名 捕获 《至 138) ， 束 可 以 在 括 写 中 使 用 命名 ， 而 
个 十 编 号 。 

用 环视 做 测试 。 完 整 的 环视 结构 ， 例 如 (? =...) ,和 (? < 
=... ,， 可 以 用 于 if 测试 。 如 琳 环 视 能 够 风 配 ， 它 返回 “true”， 执 行 
then 部 分 。 任 则 会 执行 else 部 分 。 来 看 个 专门 设计 的 例子 





CC na 
COI 1 te NUM: 之 后 的 位 置 尝试 匹配 
\d+ ， 但 是 在 其 他 位 置 答 试 使 用 \wt 。 环 视 条 件 判断 以 下 男 线 标注 。 

条 件 判 断 的 其 他 测试 。Perl 提供 了 一 种 复杂 的 条 件 判 断 结 构 ， 容 许 
在 测试 中 使 用 任 音 Perl 代 但 。 返 回 值 作为 测试 的 值 ， 根 据 它 来 判断 then 
或 者 else 部 分 是 售 应 该 答 试 。 详 细 信 息 请 参考 第 7 章 的 第 327 页 。 

号 配 优 先 量 词 : 大 、+、? {num, num} 

sl) (es. DS. AS, DRX eA, ETRE He ER ENEH X 
象 的 匹配 次 数 ) CAAWTEATA. DW, FERN, TERETE 
中 使 用 \+ 和 "\? 来 取代 '+ 和 '? TRE, FERRER EA TP, Bria] 
不 能 限定 反 同 引用 ， 也 不 能 限定 括号 。 

XB]: {min，max} 或 者 \{min，max\} 

区 间 可 以 被 认为 是 “计数 量词 Ccounting quantifier) ”， 因 为 用 户 可 
以 通过 区 间 指 定 匹 配 成 功 所 必须 的 下 限 和 上 限 。 如 有 果 只 设置 了 一 个 数值 
(例如 ra-z]{3} 或 者 '[a-zJM3\} > WRI RRE) ， 匹 配 的 次 数 束 等 于 这 
个 什 。 它 等 同 于 '[a-z][a-z]j[a-z] OSEAAN H peA HMAS 
二 | 4 


需要 注意 的 是 ， 不 要 认为 义 {0，0} 的 意思 是 “X 不 能 出 现 ”。 
X{0，0} 没有 意义 ， 因 为 它 的 意思 是 “不 需要 匹配 XX ， 也 就 是 说 实际 


上 根本 不 需要 进行 任何 尝试 *"。 它 基本 每 于 'X{0，0} 不 存在 一 一 如 果 存 
在 X， 它 也 可 以 被 正则 表达 式 之 后 出 现 的 菜 些 元 系 罗 配 ， 所 以 这 种 做 法 
是 行 不 通 的 〈 注 17) 。 要 实现 “不 容许 存在 ”， 请 使 用 否定 性 环视 。 

忽略 优先 量词 : *« 2? 、+? 、? ? 、{num，num}? 

有 的 工具 提供 了 不 那么 美观 的 量词 : 六 ?、+? ? ? 和 {min， 
max}? 。 这 些 是 忽略 优先 的 量词 。 量 词 在 正 瘟 情况 下 都 是 “匹配 优先 
(greedy) ”的 ， 匹 配 尽 可 能 多 的 内 容 。 相 反 ， 这 些 忽 略 优先 的 量词 会 匹 
配 尽 可 能 少 的 内 容 ， 只 需要 满足 下 限 ， 匹 配 束 能 成 功 。 其 中 的 甜 异 有 深 
远 的 影响 ， 详 细 的 介绍 在 下 一 章 C159) 。 

占有 优先 量词 : 大 +、++、? +. {num, num}+ 

这 些 量 词 目前 只 有 java.utilregex 和 PCRE (以 及 PHP) 提供 ， 但 是 很 
可 能 会 流行 开 来 ， 占 有 优先 量词 类 似 普通 的 匹配 优先 量词 ， 不 过 他 们 一 
旦 匹配 某 些 内 容 ， 束 不 会 “交还 ”。 它 们 美 似 固 化 分 组 ， 如 果 理 解 了 基本 
的 匹配 过 程 ， 束 很 容易 理解 占有 优先 量词 。 

从 某 种 意义 上 来 襄 ， 占 有 优先 的 量词 只 是 些 表面 工夫 ， 因 为 它们 可 
以 用 固化 分 组 来 模拟 。 | .++ 与 '(? >.+) 的 结果 完全 一 样 ， 只 是 中 


够 佑 能 的 实现 方式 能 对 占有 优先 量词 进行 更 多 的 优化 。 


局 级 证 题 引导 


Guide to the Advanced Chapters 

我 们 已 经 束 悉 了 元 字符 、 流 派 、 语 法 包装 (syntactic packaging) 之 
类 的 概念 ， 现 在 应 该 评 细 介绍 本 书 开 类 提 到 的 第 三 点 了 ， 也 就 古 工 其 软 
件 的 正则 引擎 如 何 把 一 个 正则 表达 式 应 用 到 文本 当中 。 在 第 4 BEEN 
表达 式 的 还 配 原 理 ” 中 ， 我 们 会 看 到 匹配 引擎 的 实现 方式 如 何 影响 匹配 
的 完成 、 匹 配 的 内 容 ， 以 及 匹配 的 时 间 。 我 们 会 详细 考察 这 一 切 。 学 习 
完 这 些 知 识 之 后 ， 你 在 调 校 复 杂 的 正则 表达 去 时 会 更 有 人 信心。 多 5 
革 “ 实 用 正则 表达 式 拉 巧 * 会 用 更 复 森 的 例子 巩固 这 些 知 识 。 

接 下 来 是 第 6 章 “ 打 造 高 效率 有 的 正则 表达 式 ”"。 了 人 解 了 引擎 的 基本 工 
作 原 理 之 后 ， 你 会 学 习 到 如 何 充分 利用 这 些 知 识 。 此 6 RAR S ENK 
过 却 的 陷阱 一 一 它们 通 和 会 导致 意外 的 结 末 ， 然 后 教会 谈 者 其 正 运 用 书 
本 上 的 知识 。 

第 4、5、6 三 草 是 本 书 的 核心 。 头 三 草 上 只 是 为 它们 做 铺 奴 ， 而 且 荫 
后 针对 工具 软件 的 章节 以 它们 为 基础 。 核 心 章节 不 容易 阅读 ， 但 是 我 尽 
力 避 倪 使 用 数 和 学、 代数 和 其 他 我 们 不 邵 入 的 概 翁 。 但 是 ， 束 像 任何 蜗 深 
的 学 问 一 样 ， 潜 心 研 究 细 市 需要 人 花费 相当 的 工夫 。 





第 4 章 AIA INHI VL Ac in FE 


The Mechanics of Expression Processing 

前 一 革 在 开头 类 比 了 正则 表达 式 与 汽车 ， 余 下 的 部 分 介绍 了 正则 表 
达 式 的 功能 、 特 点 以 及 其 他 相关 信息 。 本 章 仍 会 使 用 这 个 类 比 来 说 明 重 
要 的 正则 引擎 及 其 工作 原理 。 

为 什么 需要 了 解 这 些 原 理 呢 ? 旋 者 将 会 了 解 到 ， 正 则 引擎 分 为 很 多 
种 ， 最 常用 的 引擎 类 型 一 Perl、Tcl、Python、.Net、Ruby、PHP， 我 
见 过 的 所 有 的 Java 正 则 包 ， 以 及 其 他 语言 使 用 的 工作 原理 ， 基 于 此 原 
理 ， 构 建 正 则 表达 却 的 方式 决定 了 有 茶 个 正则 表达 式 能 个 匹配 一 个 特定 字 
符 串 ， 在 何 处 匹配 ， 以 及 匹配 成 功 或 报告 失败 的 速度 。 如 果 你 认为 这 些 
问题 很 重要 ， 请 阅读 本 章 。 





REN | 
Start Your Engines! 
现在 我 们 来 看 看 ， 引 擎 的 美 比 能 为 我 们 提供 多 大 帮助 。 引 擎 的 价值 
在 于 ， 有 了 和 它 ， 你 不 需要 人 花 多 少 气 力 束 能 从 一 个 地 方 移动 到 夯 一 个 地 
方 。 芍 驶 员 只 需要 放松 或 者 昕 昕 首 乐 ， 发 动机 会 完成 余下 有 的 事情 。 它 的 
主要 任务 就 是 驱动 车 轮 ， 而 驾驶 员 没 必要 关心 它 是 如 何 工 作 的 。 是 这 样 
nes ? 


ARI 


Two Kinds of Engines 

设想 一 下 驾驶 电动 汽车 的 情形 ? 电动 汽车 已 经 诞生 很 人 人 了， 但 它们 
不 保 汽 油 发 动机 驱动 的 汽车 那样 普及 ， 因 为 电动 汽车 还 不 够 成 席 。 如 果 
你 有 辆 电动 汽车 ， 请 记 住 别 给 它 加 油 。 如 果 你 的 汽车 采用 汽油 发 动机 ， 
请 务必 远离 烟火 。 电 动机 几乎 总 是 “能 够 运行 "?， 汽 油 机 则 需要 多 加 你 
Fo PRK (EE, eas, BOP AA ANIA) AH, A BACK 
提升 肥 动 机 的 效率 。 当 然 ， 也 可 能 降低 汽油 机 的 性 能 ， 或 者 导致 及 动机 
EL. AAS SN CRAB, (BAN Aes. Aw, U 
RUE PASE TMA, HDS EE, AK, eee 


BT HJ A HE 


New Standards 

TERIA BS AoA: 加 利 福 尼 亚 州 的 尾气 排放 标准 〈 注 
1) > 一些 发 动机 达到 了 加 州 的 严格 排放 标准 ， 一 些 则 没有 。 这 两 类 友 
动机 并 没有 本 质 的 不 同 ， 只 是 按 标准 划分 为 两 类 。 这 些 标 准 规定 了 发 动 
机 尾气 排放 的 成 分 ， 而 并 没有 规定 发 动机 应 该 怎样 做 才能 达标 。 有 所以， 
现在 我 们 可 以 把 之 前 的 两 分 法 变 为 四 分 法 : 符合 标准 的 电动 机 、 不 符合 
标准 的 电动 机 、 人 符合 标准 的 汽油 机 和 不 符合 标准 的 汽油 机 。 
回 到 原来 的 话题 ， 我 敢 打 赌 ， 电 动机 不 需要 做 多 少 改动 束 可 以 达标 
标准 只 是 “规定 ”尾气 的 成 分 ， 而 电动 机 几乎 没有 尾气 。 相 反 ， 汽 油 
机 要 达标 可 能 残 需要 大 的 修改 和 和 更新。 使 用 汽油 发 动机 的 要 驶 员 尤 其 需 
要 注意 汽油 的 型 亏 一 a Re SU) TE a LER T o 

标准 的 作用 





更 严格 的 排放 标准 是 个 好 玩意 儿 ， 但 驾驶 员 也 需要 考 谍 更 多 ， 同 时 
更 加 小 心 〈 至 少 对 汽油 车 来 次 如 此 ) 。 不 过 坦白 说 ， 新 标准 对 大 多 数 人 
没有 什么 影响 ， 因 为 其 他 州 不 会 施行 加 州 的 标准 。 

所 以 你 知道 ， 四 种 类 型 的 友 动 机 其 实 可 以 分 为 三 类 : 两 类 十 汽油 
机 ， 一 类 是 电动 机 。 虽 然 它 们 部 是 驱动 车 轮 的 ， 但 你 明白 了 其 中 的 天 
异 。 你 不 知道 的 是 ， 这 扒 复 杂 的 玩意 与 正则 表达 却 有 什么 关系 ! 其 实 这 
里 面 的 关系 远 比 你 能 想象 的 要 复 术 。 


正则 引擎 的 分 次 


Regex Engine Types 

正则 引擎 主要 可 以 分 为 基本 不 同 的 两 大 类 : 一 种 是 DFA 相当 于 之 
前 说 的 电动 机 ) ， 态 一 种 是 NFA《〈 相 当 于 前 面 的 汽油 机 ) 。 我 们 很 快 残 
会 知道 DEFA 和 NEFA 的 基体 合 义 ， 但 是 现在 恋 着 只 需要 知道 这 两 个 名 字 ， 
PUR Bi’ Al“Ted”, “汽油机 ”和 “电动 机 ”一 样 。 

DFA 和 NFA 部 有 很 长 的 历史 ， 不 过 ， 正 如 汽油 机 一 样 ，NFA 的 历 
史 更 长 一 些 。 使 用 NFA 的 工具 包括 .NET、PHP、Ruby、Perl、Python、 
GNU Emacs、ed、sec、vVvi、grep 的 多 数 版 本 ， 甚 至 还 有 菏 些 版 本 的 egrep 
和 awk。 而 采用 DFA 的 工具 主要 有 egrep、awk、]lex 和 flex。 也 有 些 系统 
采用 了 混合 引擎 ， 它 们 会 根据 任务 的 不 同 选择 合适 的 引擎 〈 甚 全 对 同一 
表达 却 中 的 不 同 部 分 采用 不 同 的 引擎 ， 以 求 得 功能 与 速度 之 间 的 最 佳 平 
衡 ) 。 表 4-1 列 出 了 少量 蜗 用 的 工具 及 其 大 多 数 厂 本 使 用 的 引擎 。 如 末 
Re 
到 答案 。 

表 4-1: 部 分 程序 及 其 所 使 用 的 正则 引擎 





ean |e 
DFA awk (大 多 数 版 本 ) egrep (KF MIKA), flex, lex, MySQL, Procmail 
传统 型 NFA GNU Emacs, Java, grep ( K 2 SK A), less, more, NET 语言 .PCRE library, 


Perl, PHP (Pr =H IEW HE), Python, Ruby, sed (大 多 数 版 本 ) vi 
POSIX NFA mawk, Mortice Kern Systems’ utilities, GNU Emacs (明确 指定 时 使 用 ) 
DFA/NFA 混合 | GNU awk, GNU grep/egrep, Tel 

第 3 章 已 经 讲 过 ，NFA 和 DEFA 都 及 展 了 二 十 多 年 ， 产 生 了 许多 不 必 

要 的 变 体 ， 结 未 ， 现 在 的 情况 比较 复 末 。POSIX 标 准 的 出 合 ， 殴 征 为 了 

规范 这 种 现象 ，POSIX 标 准 不 但 清楚 地 规定 了 前 一 草 中 提 到 的 引擎 应 该 


文 持 的 元 字符 和 特性 ， 还 明确 规定 了 使 用 者 期 望 由 表达 却 获 得 的 准确 
结果 。 除 开 表 面 细节 不 谈 ，DFA 〈 也 就 是 电动 机 ) 显然 已 经 符合 新 的 标 
准 ， 但 是 NFA 风 格 的 结果 却 与 此 不 一 ， 所 以 NFA 需 要 修改 才能 从 合 标 
准 。 这 样 一 来 ， 正 则 引 敬 可 以 粗略 地 分 为 3 类 : 

eDFA (符合 或 不 符合 POSIX 标 准 的 都 属 此 类 ) 。 

e 传 统 刑 NFA。 

ePOSIX NFA. 

这 里 提 到 的 POSIX 是 匹配 意义 上 的 ， 也 束 是 说 ，POSIX 标 准 规定 的 
东 个 正则 表达 式 的 应 有 行为 《本章 稍 后 部 分 将 讨论 ) ; 而 不 是 指 POSIX 
cg 许多 程序 支持 这 些 特 性 ， 但 结果 与 POSIX 规 范 不 
完全 一 致 。 

老式 (功能 极 少 的 ) 程序 ， 比 如 egrep、awk、lex 之 类 ， 一 般 都 是 使 
用 DFA 引 擎 〈 电 动机 ) ， 所 以 ， 新 的 标准 只 是 肯 宪 了 既 有 的 情况 ， 而 没 
有 大 的 改变 。 但 是 也 存在 一 些 汽油 机 版 本 的 此 类 程序 ， 如 果 它 们 需要 达 
下 POSIX 标 准 ， 就 需要 做 些 修改 。 通 过 了 加 州 排放 标准 测试 (POSIX 
NFA) 的 汽油 机 能 够 产生 符合 标准 的 结果 ， 但 是 这 些 必要 的 修改 会 增加 
保养 的 难度 。 以 前 ， 错 位 的 火花 塞 也 能 应 付 着 使 用 ， 但 现在 根本 就 点 不 
着火 。 以 前 还 能 “ 读 合 ”的 汽油 ， 现 在 会 和 弄 得 发 动机 侠 侠 乱 啊 。 不 过 ， 一 
日 掌握 其 中 的 门道 ， 必 动机 束 能 平稳 安静 地 运转 了 。 


几 句 题 外 话 


From the Department of Redundancy Department 

现在 ， 我 请 读者 回 过 头 去 ， 重 新 思考 关于 引擎 的 故事 。 其 中 的 每 名 
话 都 涉及 菜 些 与 正则 表达 式 相 关 的 事实 。 读 第 二 授 会 引起 许多 思考 。 尤 
其 是 ， 为 什么 说 电动 机 (DFA 引擎 ) 只 是 “能 够 运行 >。 什 么 影响 了 汽油 
机 CNFA) ? 使 用 NFA 引 警 时 ， 应 该 如 何 调整 才能 获得 期 望 的 结果 ? 通 
测试 的 POSIX DEFA 有 什么 特别 之 处 ? 现实 中 “ 炸 火 的 引擎 ”又 
FETA? 


MAJ BASS AE 


Testing the Engine Type 

工具 所 采用 的 引 获 的 类 型 ， 决 定 了 引擎 能 够 文 持 的 特性 以 及 这 些 特 
性 的 用 途 。 所 以 ， 通 常情 况 下 ， 我 们 只 需要 几 个 测试 用 的 表达 式 ， 就 能 
判断 出 程序 所 使 用 的 引擎 类 型 毕竟， 如 果 你 不 能 分 辩 引 擎 的 类 型 ， 这 


种 分 类 束 没 有 意义 )。 现 在 ， 我 并 不 期 户 读 者 理解 下 面 的 这 些 测 试 原 
理 ， 我 只 是 提供 一 些 测 试 表 达 式 ， 即 使 谈 者 最 喜欢 使 用 的 软件 没有 出 现 
在 表 4-1 之 内 ， 也 可 以 判断 出 引擎 的 类型 ， 继 续 阅 读本 草 的 其 他 内 容 。 

侠 合 传统 型 NEFA 

传统 型 NEFA 是 使 用 最 广泛 的 引擎 ， 而 且 它 很 容易 识别 。 首 先 ， 看 看 
忽略 优先 量词 (141) 是 含 得 到 文 持 ?如 未 是 ， 基 本 驳 能 确定 这 十 传 
统 型 ” NFA。 我 们 将 要 看 到 ， 和 忽略 优 先 量词 古 DFA 人 不 文 持 的 ， 在 POSIX 
NFA 中 也 没有 意义 。 为 了 确认 这 一 点 ， 只 需要 简单 地 用 正则 表达 式 
nfalnfa:not 来 匹配 字符 串 人 fa'not*， 如 条 只 有 ?fa 匹配 了 ， 这 束 是 传统 
型 NFA。 如 果 整 个 hfa not' 都 能 匹配 ， 则 此 引 警 要么 是 POSIX NFA, 2 
么 是 DFA。 

DEFA 还 是 POSIX NFA 

某 些 情况 下 ，DFA 与 POSIX NFA 的 区 别 是 很 明显 的 。DFA 不 支持 
捕获 型 括号 〈capturing parentheses) 和 回调 Cbackreferences) , 1K— Ñ 
有 助 于 判 新 ， 不 过 ， 也 存在 同时 使 用 两 种 引擎 的 混合 系统 ， 在 这 种 系 红 
中 ， 如 采 没 有 使 用 捕获 型 括号 ， 残 会 使 用 DFA。 

下 面 这 个 徐 单 的 测试 能 说 明 很 多 问题 ， 用 X C+ +X 来 匹配 形 
如 “=XX======================" 的 字符 串 ， 例 如 使 用 egrep 命 令 : 


如 果 执 行 需 要 花 很 长 时 | 间 ， 束 是 NFA【( 如 果 上 一 项 测试 显示 这 不 是 
传统 型 NFA， 那 么 它 肯 定 是 POSIX NFA) 。 如 果 时 间 很 短 ， 就 是 DFA， 
或 者 是 支持 某 些 高 级 优化 的 NFA。 如 果 显 示 堆 栈 超 浇 (stack 
overflow) ， 或 者 超时 退出 ， 那 么 它 是 NFA5 引 苟 。 


JL e HJ AS fihi 


Match Basics 

在 了 解 不 同 引 擎 的 又 异 之 前 ， 我 们 先 看 看 它们 的 相似 之 处 。 汽 车 的 
各 种 动力 系统 在 某 些 方面 是 一 样 的 (或 者 说 ， 从 实用 的 角度 考虑 ， 它 们 
是 一 样 的 ) ， 所 以 ， 下 面 的 范例 也 能 够 适用 于 所 有 的 引擎 。 


RT Bil 


About the Examples 

AR EERIE WN ce A Fe GEA A RE YEW S| SE, MA, SR EERE oF 
不 能 完全 文 持 它们 。 在 本 书 所 说 的 汽车 里 ， 机 油 油 尺 〈dipstick) 可 能 换 
在 机 油 滤 清 旨 Coil filter) WAI, Mea AS, CAREI E A oe 
(distributor cap〉 的 后 面 。 不 过 ， 读 者 要 做 的 只 是 理解 这 些 概 仿 ， 能 够 
使 用 和 维护 自己 最 喜欢 《以 及 他 们 最 感 兴趣 ) 的 正则 表达 式 包 。 

在 大 部 分 例子 中 ， 我 仍然 使 用 Perl 表 示 法 ， 虽 然 我 偶尔 会 用 一 些 其 
他 的 表示 法 来 提醒 读者 ， 表 示 法 并 不 午 要 ， 我 们 讨论 的 问题 与 程序 和 表 
AED IBS TER. AANA a, GOR BEB NAS EET ON, 
WAHIE (5114) 。 

KRE ERE y LAITE E. BEE Ara AR 
REHANI LER D WILA, MEHEA m AR EN 
a {RANSE, SRSCIFAR MUI. BARAR NR BEI HARE EKS 
Wy: 

1. 优 先 选 择 最 左 问 (最 徘 开 涉 ) WLA 

2. 标 准 的 匹配 量词 Cow 、'+ 、'? Mm, np) 是 匹配 优先 的 。 

在 本 草 中 ， 我 们 将 考察 这 些 规 则 ， 它 们 的 结果 ， 以 及 其 他 许多 内 
容 。 首 先 我 们 详细 讨论 第 一 条 规则 。 


规则 1: DÈ FRE FE A tr HS DL Ae i R 


Rule 1:The Match That Begins Earliest Wins 

RIELA, EARM E ae Ac A VOC 28 ARS ee De T AE HT BERS 
ILER. TKR UU SR ALE PEG IN VO CAG RARE GAKR 
w) ， 而 只 是 规定 ， 在 所 有 可 能 的 还 配 结 果 中 ， 优 和 完 选 择 开 始 位 置 最 左 
病 的 。 实 际 上 ， 因 为 可 能 有 多 个 匹配 结束 的 起 始 位 置 都 在 最 左 站 ， 也 许 


我 们 应 该 把 这 条 规则 中 的 “ 荣 个 匹配 结果 a match) "RAZ VOR as 
(the match) ”， 不 过 这 上 听 起 来 有 些 别 扭 。 

这 条 规则 的 由 来 是 : 匹配 先 从 需要 程 找 的 字符 串 的 起 始 位 置 签 试 匹 
Ac. FER, “wL Cattempt) ”的 意思 是 ， 在 当前 位 置 测 试 整 个 正 
则 表达 式 〈 可 能 很 复 林 〉 能 匹配 的 每 样 文 本 。 如 来 在 当前 位 置 测 试 了 所 
有 的 可 能 之 后 不 能 找到 匹配 结果 ， 束 需要 从 字 从 串 的 第 二 个 字符 之 前 的 
位 置 开 始 重 新 答 试 。 在 找到 匹配 结 未 以 前 必须 在 所 有 的 位 置 重 复 此 过 
程 。 只 有 在 笠 试 过 所 有 的 起 始 位 置 (直到 字符 串 的 最 后 一 个 字符 〉 都 不 
能 找到 匹配 结束 的 情况 下 ， 才 会 报告 “匹配 失败 ”。 

所 以 ， 如 果 要 用 'ORA 来 匹配 FLORAL， 从 字符 串 左 边 开始 第 一 轮 
党 试 会 失败 〈 因 为 'ORA 不 能 匹配 FLO) ， 第 二 轮 答 试 也 会 失败 
C'ORA 同样 不 能 匹配 LOR) ， 从 第 三 个 字符 开始 的 符 试 能 够 成 功 ， 所 
以 引擎 会 停 下 来 ， 报 告 匹配 结果 EE. 

如 果 不 了 解 这 条 规则 ， 天 时 候 束 不 能 理解 匹配 的 结果 。 例 如 ， 用 
‘cat, SVL AC: 


The dragging belly indicates that your cat is too fat. 


结果 是 "525s ， 而 不 是 后 来 出 现 的 cat。 单 词 cat 是 能 够 被 匹配 
的 ， 但 indicates 中 的 cat 出 现 的 更 早 ， 所 以 得 到 匹配 的 是 它 。 对 于 egrep 之 
美的 程序 来 说 ， 这 种 关 别 是 无 关 紧 要 的 ， 因 为 它 只 关心 “是 合 ? 能 够 兄 
配 ， 而 不 是 “在 哪里 ?匹配 。 但 如 末 是 进行 其 他 的 应 用 ， 例 如 查找 和 逢 
换 ， 这 种 差别 驶 很 重要 了 。 

这 里 有 一 个 小 测验 〈 应 该 不 困难 ) : 如 果 用 ‘fatlcatlbelly|your 来 匹 
MITE ‘The dragging belly indicates that your cat is too fat.:， 结 果 是 什 
Ale? 请 看 下 一 贝 。 

“传动 装置 (transmission) ”和 驱动 过 程 Cbump-along ) 

或 许 汽 车 变速 箱 《〈 详 注 1) 的 例子 有 助 于 理解 这 条 规则 ， 告 驶 员 在 
换 档 时 ， 变 速 箱 负 和 贡 连 接 引 擎 和 动力 系统 。 引 擎 是 真正 产生 动力 的 地 方 

CEISD ， 而 变速 箱 把 动力 传 这 到 和 车轮。 

传动 装置 的 主要 功能 : 驱动 

如 果 引 获 不 能 在 字符 串 开始 的 位 置 找到 匹配 的 结果 ， 传 动 装 置 束 会 
推动 引擎 ， 从 字符 串 的 下 一 个 位 置 开 始 答 试 ， 然 后 是 下 一 个 ， 再 下 一 
个 ， 如 此 继续 。 不 过 ， 如 采 攻 个 正则 表达 式 是 以 “字符 串 起 始 位 置 销 点 

(start-of-string anchor) ”开头 的 ， 传 动 装置 驶 会 知道 ， 不 需要 更 多 的 等 
i, ANU Ae VLA, ZAR AEM SA BASKET aR. FERS 6 章 
中 ， 我 们 会 讲解 这 一 点 ， 以 及 更 多 的 内 部 优化 措施 。 


引擎 的 构造 


Engine Pieces and Parts 

所 有 的 引擎 都 是 由 不 同 的 堆 部 件 组 合 而 成 的 。 如 果 对 这 些 零件 缺乏 
了 解 ， 也 就 不 可 能 真正 理解 引擎 的 工作 原理 。 正 则 引 敬 中 的 这 些 零 件 分 
NJL 文字 字符 (Jiteral characters) ~ Œ] (qualifiers) 、 字 符 组 
(character classes) 、 插 写 ， 等 等 ， 我 们 在 第 3 章 介绍 过 ( 守 114) 。 这 
些 零 件 的 组 合 方式 《以 及 正则 引擎 对 它们 的 处 理 方 式 ) 决定 了 引擎 的 特 
性 ， 所 以 ， 这 些 雪 件 的 组 合 方 去 ， 以 及 它们 之 则 的 配合 ， 是 我 们 主要 天 
注 的 东西 。 首 先 ， 让 我 们 来 看 看 这 些 零 件 : 

文字 文本 (Literal Text) 例如 a、\ 类 、! 、 权 ... 

对 于 非 元 字符 的 文字 字符 ， 答 试 匹 配 时 需要 考虑 瓯 是 "这 个 字符 与 
当前 笑 试 的 字符 相同 吗 ? ”。 如 末 一 个 正则 表达 式 只 包含 纯 文本 字符 ， 
例如 "usa ， 那 么 正则 引擎 会 将 其 视 为 : 一 个 ， 接 看 一 个 ss ， 接 看 一 
个 [a 。 进 行 不 区 分 大 小 写 的 匹配 时 的 情况 要 复杂 一 点 ， 因 为 了 能 够 匹 
Ac B， 而 也 也 能 匹配 b， 不 过 这 仍然 不 难 理解 《Unicode 的 情况 稍微 复 
An Ea 110): 

字符 组 、 点 号 、Unicode 属 性 及 其 他 

通常 情况 下 ， 字 符 组 、 点 号 、Unicode 属 性 及 其 他 的 匹配 是 比较 简 
单 的 : 无 论 字 符 组 的 长 度 是 多 少 ， 它 都 只 能 匹配 一 个 字符 ( 注 2) 。 

点 号 可 以 很 方便 地 示 示 复业 的 字符 组 ， 它 几乎 能 匹配 所 有 字符 ， 所 
以 它 的 作用 也 很 简单 ， 其 他 的 窗 便 方式 还 包括 \w ，\NW 和 Ad 。 

捕获 型 括号 
用 于 捕获 文本 的 括 亏 《而 不 是 用 于 分 组 的 括号 ) 不 会 影响 匹配 的 过 





FE 


测验 答案 


0 148 页 测验 的 答案 

请 记 住 , 正则 表达 式 的 每 一 次 尝试 都 要 进行 到 底 ， PVA fat |cat|belly|your) HAL 
配 ‘The dragging belly indicates your cat is too fat MRA fat, A 
管 fat, AMA THEN? Amal, 

当然 ， 正 则 表达 式 应 该 也 能 够 匹配 fat 和 其 他 可 能 ， 但 它们 都 不 是 最 先 出 现 的 匹配 结 
R ( 除 现在 最 左边 的 结果 ) ， 所 以 不 会 被 选择 。 在 进行 下 一 轮 溉 试 之 前 , 正则 表达 式 的 
所 有 可 能 都 会 尝试 , 也 就 是 说 , 在 移动 之 前 ， faty, catı, belly, 和 Your 部 必须 尝试 ，。 





i (eg, ‘A ' (2? <=\d) ...) 

销 点 可 以 分 为 两 大 类 : 简单 销 点 人 ^、$、\G、\b、... 守 129) ME 
杂 销 点 (例如 顺序 环视 和 首 序 环视 分 133) 。 简 单 锚 点 之 所 以 得 名 ， 就 
在 于 它们 只 是 检查 目标 字符 串 中 的 特定 位 置 的 情况 O Z...) ， 或 者 
是 比较 两 个 相 邻 的 字符 二、\b、...) 。 相 反 ， 复 杂 销 点 〈 环 视 ) 能 
含 任意 复杂 的 子 表 达 式 ， 所 以 它们 也 可 以 任意 复杂 。 

非 “ 电 动 ”的 插 写 、 反 同 引 用 和 忽略 优先 量词 

虽然 本 章 希 望 讲解 的 是 引擎 之 间 的 相似 之 处 ， 但 为 了 方便 读者 理解 
本 章 余 下 的 内 容 ， 这 里 必须 指出 一 些 有 意义 的 差异 。 捕 获 括号 〈 以 及 相 
应 的 反问 引用 和 $1 表示 法 ) 就 像 汽油 添加 剂 一 样 一 一 它们 只 对 汽油 机 
(NFA) 起 作用 ， 对 电动 机 (DFA) 不 起 作用 。 忽 略 优先 量词 也 是 如 
此 。 这 种 情况 是 由 DFA 的 工作 原理 决定 的 ( 注 3) 。 这 解释 了 ， 为 什么 
DEFA 引 人 擎 不 文 持 这 些 特性 。 恋 者 会 看 到 ，awk、lex 和 egrep 痢 不 文 持 反 回 
引用 和 $1 功能 (表示 法 ) 。 

也 许 读者 会 注意 到 ，GNU 版 本 的 egrep 确实 文 持 反 辐 引用。 这 是 因 
为 它 包含 了 两 台 不 同 的 引擎 。 它 首先 使 用 DFA 查 找 可 能 的 匹配 结果 ， 再 
用 NFA 支持 包括 反 同 引用 在 内 的 所 有 特性 〉 来 确认 这 些 结果 。 接 下 
来 ， 我 们 将 看 到 DFA 不 能 支持 反问 引用 及 捕获 括号 的 原因 ， 以 及 这 种 引 
擎 能 够 存在 的 理由 CDFA 有 很 多 显 彰 的 优势 ， 例 如 匹配 速度 非常 快 ) 。 


规则 2: 标准 量词 站 匹配 优先 的 


Rule 2:The Standard Quantifiers Are Greedy 


至 今 为 止 ， 我 们 看 到 的 特性 都 非 钊 多 恒 。 但 仅仅 菲 它 们 还 很 不 够 
一 一 要 完成 复 染 点 的 任务 ， 束 般 要 使 用 性 写 、 加 号 、 多 选 结构 之 类 功能 
更 强大 的 元 字符 。 要 彻底 理解 这 些 功 能 ， 需 要 学 习 更 多 的 知识 。 

读者 首先 需要 记 住 的 是 ， 标 准 匹 配 量 词 〈? 、 类 、+， 以 及 {min， 
max}) 都 是 “匹配 优先 Cgreedy) ”的 。 如 果 用 这 些 量词 来 约束 某 个 表达 
IO PIU Cexpr) * 中 的 ' Cexpr) ~ ‘a? 中 的 'a 和 '[0-9]+ 中 的 '[0- 
9] ， 在 匹配 成 功 之 前 ， 进 行 答 试 的 次 数 是 存在 上 限 和 下 限 的 。 在 前 面 
的 章节 中 我 们 已 经 提 到 过 这 一 点 一 一 而 规则 2 表明 ， 这 些 答 试 总 是 硕 望 
锋 得 最 长 的 匹配 (一些 工 具 提 供 了 其 他 的 匹配 量词 ， 但 是 本 方 只 讨论 标 
准 的 匹配 优先 量词 ) 。 

人 简 而 言 之 ， 标 准 匹 配 量词 的 结束 “可 能 "并非 所 有 可 能 中 最 长 的 ， 但 
它们 总 是 答 试 匹配 尽 可 能 多 的 字符 ， 直 到 匹配 上 限 为 止 。 如 采 最 终结 采 
并 非 该 表达 陈 的 所 有 可 能 中 最 长 的 ， 原 因 肯 定 是 匹配 字符 过 多 导致 号 配 
失败 。 举 个 简单 的 例子 : 用 \b\wts\b 来 匹配 包含 “的 字符 串 ， 比 如 
Ui‘regexes’, “\w+ 完全 能 够 匹配 整个 单词 ， 但 如 果 用 \w+ 来 匹配 整个 


Min], [s 就 无 法 匹配 了 。 为 了 完成 匹配 ， w 必须 匹配 ES 
'"， 把 最 后 的 's\b 留 出 来 。 

如 果 表 达 式 的 其 他 部 分 能 够 成 功 匹 配 的 唯一 条 件 是 ， 匹 配 优先 的 结 
构 不 匹配 任何 字符 ， 在 容许 零 匹 配 (译注 2) 的 情况 下 (例如 使 用 星 
写 、 问 号， 或 者 {0，max}， 这 是 没有 问题 的 。 不 过 ， 这 种 情况 只 有 在 表 
达 式 的 后 续 部 分 强迫 下 才能 发 生 。 匹 配 优先 量词 之 所 以 得 名 ， 是 因为 它 
们 总 是 (或 者 ， 至 少 是 尝试 ) 匹配 多 于 匹配 成 功 下 限 的 字符 。 

匹配 优先 的 性 质 可 以 非常 有 用 《〈 有 时 候 也 非常 讨厌 ) 。 它 可 以 用 来 
解释 '[0-9]+ 为 什么 能 匹配 March.1998 中 的 所 有 数字 。1 匹 配 之 后 ， 实 际 
上 已 经 满足 了 成 功 的 下 限 ， 但 此 正则 表达 式 是 匹配 优先 的 ， 所 以 它 不 会 
停 在 此 处 ， 而 会 继续 下 去 ， 继 续 匹 配 "998:， 直 到 这 个 字符 串 的 末尾 “〈 因 
为 '[0-9] 不 能 匹配 字符 串 最 后 的 空挡 ， 所 以 会 俘 下 来 ) 。 

邮件 主题 

显然 ， 这 种 匹配 方式 并 非 只 能 用 于 匹配 数字 。 举 例 来 说 ， 如 果 我 们 
击 要 判 烤 E-mail 的 header 中 的 茶 行 字符 是 含 标题 行 (subject line) 。 前 面 
C55) 我 们 已 经 说 过 ， 可 以 用 'ASubject: 来 实现 。 不 过 ， 如 果 使 用 
[A 六 
Subject: CT)! ， 我 们 就 能 在 之 后 的 程序 中 使 用 捕获 型 括号 来 访问 主 
题 的 内 容 〈 例 如 Perl 中 的 $1) (译注 3) 。 

在 探讨 .大 匹配 邮件 主题 之 前 ， 请 读者 记 住 ， 一 旦 '^Subject: 能 


够 部 分 下 配 ， 整 个 正则 表达 式 束 一 定 能 够 全 部 匹配 。 因 为 Subject: + 
之 后 没有 字符 会 导致 表达 式 匹 配 失 败 : Lx 永远 不 会 失败 ， 因 为 “不 匹 
配 任何 字符 ”也 是 ' .类 的 可 能 结果 之 一 。 

那么 ， 为 什么 要 添加 ' .类 We? 这 是 因为 我 们 知道 ， 星 号 是 匹配 优先 
的 ， 它 会 用 点 号 还 配 尽 可 能 多 的 字符 ， 所 以 我 们 用 它 来 “填充 ”$1。 事 实 
上 上 ， 括 写 并 没有 有 影 啊 正 则 表达 式 的 匹配 过 程 ， 在 本 例 中 ， 我 们 只 是 用 它 
们 来 包括 .类 匹配 的 字符 。 

.大 到 达 字 符 串 的 末尾 之 后 点 号 不 能 继续 匹配 ， 所 以 星 亏 最 终 停 
下 来 ， 尝 试 匹 配 表 达 式 中 的 下 一 个 元 素 (尽管 .x* 无 法 继续 匹配 了 ， 但 
下 面 的 子 表达 式 或 许 能 够 继续 匹配 ) 。 不 过 ， 因 为 本 例 中 不 存在 后 面 的 
元 系 ， 到 达 表 达 陈 的 末尾 之 后 ， 我 们 吏 获 得 了 成 功 的 匹配 结 末 。 

过 虚 的 匹配 优先 

现在 让 我 们 回 过 头 去 看 “ 尽 可 能 匹配 ”的 囊 配 优先 量词 。 如 果 我 们 在 

lA ° 大 大 
上 面 的 例子 中 增加 一 个 `“x ， 把 正则 表达 式 写 作 PIEEO OY, 
结果 会 是 如 何 呢 ? 答案 是 ， 没 有 变化 。 开 头 的 . 炎 GSH) 会 霸占 
整个 标题 的 文本 ， 而 不 给 第 二 个 .类 留 下 任何 字符 。 而 第 二 个 |. 类 的 
匹配 失败 并 不 要 紧 ， 因 为 .类 不 匹配 任何 字符 也 能 成 功 。 如 果 我 们 给 第 
二 个 -类 也 加 上 括号 ，$2 将 会 是 空 日 。 

这 是否 说 明 ， 在 正则 表达 式 中 ，'.x 的 部 分 没有 机 会 匹配 任何 字符 
呢 ? 管 宁 显 然 是 否定 的 。 束 像 我 们 在 \w+ts 这 个 例子 中 看 到 的 ， 如 果 进 
行 全 部 匹配 必须 这 样 做 ， 表 达 式 中 的 某 些 部 分 可 能 “强迫 * 之 前 匹配 优先 
的 部 分 “释放 ”( 或 者 说 “交还 (unmatch) ”) 某 些 字 符 。 

[^x ([0-9][0-9]〉 或 许 是 个 有 用 的 正则 表达 式 ， 它 能 够 轧 配 一 行 
字符 的 最 后 两 位 数字 ， 如 果 有 的 话 ， 然 后 将 它们 存储 在 $1 F. Fie 
匹配 的 过 程 : .类 首先 匹配 整 行 ， 而 [0-9] [0-9] 是 必须 匹配 的 ， 在 符 试 
匹配 行 末 的 时 候 会 失败 ， 这 样 它 会 通知 Ks “MR, ORGAN AS S, X 
出 一 些 字 符 来 吧 ， 这 样 我 没准 能 匹配 。2” 匹 配 优先 组 件 首先 会 下 配 尽 可 
能 多 的 字符 ， 但 为 了 整个 表达 陈 的 匹配 ， 它 们 通 间 需要 “释放 ”一 些 字符 
(抑制 目 己 的 天 性 ) 。 当 然 ， 它 们 并 不 “属意 "这样 做 ， 只 是 不 得 已 而 为 
“区 还 ” 绝 不 能 破坏 匹配 成 立 必 须 的 和 条件， 比如 加 号 的 第 一 次 

明日 了 这 一 点 ， 我 们 来 看 人 人 .类 〈[0-9][0-9]) ML 
fit ‘about:24-characters-‘long’ Hite. [.x 匹配 整个 字符 串 以 后 ， 第 一 
AS [0-9] 的 匹配 要 求 .* 释放 一 个 字符 ‘g? (最 后 的 字符 )。 但 是 这 并 不 


能 让 '[0-9] 匹配 ， 所 以 -大 必须 继续 “交还 ”字符 ， 接 下 来 交还 的 字符 
是 nm”。 如 此 循环 15 次 ， 直 到 '.* 最 终 释 放 '4’ 为 止 。 

不 芋 的 是 ， 即 使 第 一 个 上 [0-9] 能 够 轧 配 ‘4?， 第 二 个 '[0-9] 仍然 不 能 
匹配 。 为 了 匹配 整个 正则 表达 式 ， .大 必须 再 次 释放 一 个 字符 ， 这 次 
是 2'， 由 第 一 个 "[0-9] 匹配 。 现 在 ，'4’ 能 够 由 第 二 个 [0-9] 匹配 ， 所 以 


整个 表达 式 匹 配 的 是 abeut"247char… ，，$1 的 值 是 24 

FER FE ARS 

如 采用 A. x [0-9]+ 来 匹配 一 行 的 最 后 两 个 数字 ， 期 望 匹 配 的 不 止 是 
最 后 两 位 数字 ， 而 是 最 后 的 整个 数 ， 绪 果 会 是 多 长 呢 ? WR ERI 
Hu ‘Copyright 2003., ARETA? waRE F-K. 

深入 细节 

在 这 里 必须 漆 清 一 些 东 西 。 因 为 “'. 类 必须 交还 ...” 或 者 “'[0-9] 1 
使 ...” 之 类 的 说 法 或 许 容易 引起 混淆 。 我 使 用 这 些 说 法 是 因为 它们 易于 
理解 ， 而 且 跟 实际 的 结果 一 致 。 不 过 ， 事 情 的 真相 是 由 基本 的 引擎 类 型 
决定 一 一 是 DFA， 还 是 NFA。 现 在 我 们 就 来 看 这 些 。 








表达 式 主 叶 与 文本 主导 
Regex-Directed Versus Text-Directed 
DFA 和 NFA 有 反映 了 将 正则 表达 式 在 应 用 算 法 上 的 根本 天 大。 我 把 对 


应 汽油 机 的 NFA 称 为 “表达 式 主导 (regex- directed) 2 引擎 ， 而 对 应 电动 
机 的 DEFA 称 为 “文本 主导 (text-directed) ”引擎 


NEFA 引 擎 : 表达 去 主导 


NFA Engine:Regex-Directed 

我 们 来 看 用 'to (nitelknight|night) 匹配 文本 …..tonight.… 的 一 种 办 
法 。 正 则 表达 式 从 上 开始 ， 每 次 检查 一 部 分 〈 由 引擎 租 看 表达 式 的 一 部 
， 同 时 检查 “当前 文本 〈current text) ”是 合 匹 配角 达 式 的 当前 部 

。 如 条 是 ， 则 继续 表达 陈 的 下 一 部 分 ， 如 此 继续 ， 直 到 表达 陈 的 所 有 
Ta ABREIU, BETRAN E DL AC TD 


AER 
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用 ^.*([0-9]+) | 匹配 “copyright 2003. ， 括 号 会 捕获 到 什么 ? 

= 是 捕获 整个 数字 2003， 但 结果 并 非 如 此 ,之 前 已 经 说 过 ， 为 了 满足 

] 二 的 匹配 ，.*| 必 须 交 还 一 些 字符 。 在 这 个 例子 中 ， 炎 放 的 字符 是 最 后 的 “3 

ie 之 后 “3” 能 够 由 [0-9]) 匹配 ， [0-9]) 由 上 量词 修饰 ， 所 以 现在 还 只 做 到 

ph ee “.”， 找 不 到 其 他 可 以 匹配 的 字符 。 

与 之 前 不 同 ， 此 时 没有 “必须 ”匹配 的 元 素 , 所 以 .* 不 会 被 连 交 出 0, 否则 ,|'[0-9]+t 

te 接受 匹配 优先 元 素 的 馈赠 ， 但 请 记 住 “ 先 来 先 服务 ”原则 。 匹 配 优 先 
构 只 会 在 被 迫 的 情况 下 交还 字符 。 所 以 ， 最 终 $1 的 值 是 3 

eee RGR, ' [0-9] 420-9 ERS, 而 本 例 中 [0- 

和 .xj 是 一 样 的 。 AEABRRAB AIA all 0-9) +) 1, MATAR AY | setat) H 

5 152 页 的 *Subject:*(.*) ARAA, RZA ,* 不 会 匹配 任何 学 符 ， 





在 'to (nitelknightlnight) 的 例子 中 ， 第 一 个 元 素 是 1 ， 它 将 会 重复 
答 试 ， 直 到 在 目标 字符 串 中 找到 全 为 止 。 之 后 ， 就 检查 紧 随 其 后 的 字符 
ÆA eN o LE, WR E WIA MMR. EAA, “下 面 的 元 
系 ” 指 ' (Cnitelknightlnight) 它 的 真正 合 义 是 “mite 或 者 knight 或 者 
night ”。 引 擎 会 依次 答 试 这 3 PARE. RI (AA AHA As A A 
R) 能 够 及 现 ， 如 末 行 匹配 的 字符 串 是 tonight， 第 三 个 选择 能 够 岂 配 。 
不 论 神 经 学 起 源 〈 到 85) 如 何 ， 表 达 式 主导 的 引擎 必须 完全 测试 ， 才 能 
得 出 结论 。 

YA nite Wes ZH: “VLE hn ， 然 后 是 i ， 然 后 古 
t ， 最 后 是 'e 。” 如 果 这 种 笑 试 失败 一 一 就 像 本 例 ， 引 擎 会 竹 试 为 一 种 
可 能 ， 如 此 继续 下 去 ， 直 到 匹配 成 功 或 是 报告 失败 。 表 达 陈 中 的 控制 权 
在 不同 的 元 系 之 间 转 换 ， 所 以 我 称 它 为 “表达 式 主导 ”。 

NFA5| 黎 在 操作 上 的 优点 

实质 上 ， 在 表达 式 主导 的 匹配 过 程 中 ， 每 一 个 子 表 达 陈 孝 征 独立 
的 。 这 不 同 于 反 回 引用 ， 子 表达 式 之 间 不 存在 内 在 联系 ， 而 只 是 整个 下 
则 表达 式 的 各 个 部 分 。 在 子 表达 式 与 正则 表达 式 的 控制 结构 (多 选 分 
文 、 插 号 以 及 匹配 量词 ) 的 层级 关系 〈layout) 控制 了 整个 匹配 过 程 。 

因为 NFA 引 | 获 是 正则 表达 式 主 导 的 ， 和 车 驶 员 【〈 也 束 是 编写 表达 式 的 
人 ) 有 元 中 的 机 会 来 实现 他 /她 期 望 的 结果 (第 5 草 和 第 6 章 将 会 告诉 读 
者 ， 如 何 正 确 高 效 地 实现 目标 ) 。 现 在 看 起 来 ， 这 点 还 有 些 模糊 ， 但 过 
一 段 承 会 变 清晰 。 





DEFA 引 擎 : 文本 主导 


DFA Engine:Text-Directed 
与 表达 式 主导 的 NFA 不 同 ，DEFA 引 擎 在 扫描 字符 串 时 ， 会 记录 “ 当 


前 有 效 (currently in the works) ”的 所 有 匹配 可 能 。 有 基体 到 tonight 的 例 
Tt: 引擎 移动 到 ty, EZE Say Chee DOA ay ges — TE a 
AG: 


} 


字符 串 中 的 位 置 正则 表达 式 中 的 位 置 


aftert onight 可 能 的 匹配 位 置 ， to (nite|knight|night), 


接 下 来 扫 拍 的 每 个 字符 ， 都 会 更 新 当前 的 可 能 匹配 序列 。 继 续 扫 拍 
两 个 字符 以 后 的 情况 是 : 


字符 串 中 的 位 置 正则 表达 式 中 的 位 置 
after=toni ght 可 能 的 匹配 位 置 ，to (ni te|knight|ni ght) 


有 效 的 可 能 匹配 变 为 两 个 〈knight 被 淘汰 出 局 ) > AM Eg, WR 
— EE “hA AC se ROA, S| AHURA sek, tk 
rt KI o 

我 称 这 种 方式 为 “文本 主导 ”， 是 因为 它 扫 摘 的 字符 串 中 的 每 个 字符 
都 对 引擎 进行 了 控制 。 在 本 例 中 ， 麻 个 未 完成 的 匹配 也 许 是 任意 多 个 
(只 要 可 行 ) 匹配 的 开始 。 不 合适 的 匹配 可 能 在 扫 摘 后 继 文 字 时 会 家 去 
除 。 在 菜 些 情况 下 ,，“ 处 理 中 的 未 终结 匹配 (partial match in 
progress) "Al AEWA NRL. AERIAN to ©... 2, 
fo AI BB op EAS re A HAN, {ES RS BUVOBC LCA PE, 5 SEGA 
会 答 试 匹配 括号 内 的 部 分 。 匹 配 过 程 中 ， 在 答 试 插 号 内 的 部 分 时 ， 完 整 
PLAC Cto) 已 经 体 留 下 来 ， 以 应 付 插 号 中 的 内 容 无 法 匹配 的 情况 。 

如 采 引 车 发 现 ， 文 本 中 出 现 的 荣 个 字符 会 令 所 有 处 理 中 的 匹配 可 能 
失效 ， 束 会 返回 菜 个 之 前 保留 的 完整 匹配 。 如 果 不 存在 这 样 的 完整 罗 
配 ， 则 要 报告 在 当前 位 置 无 法 匹配 。 


第 一 想法 : 比较 NEA 与 DFA 


First Thoughts:NFA and DFA in Comparison 

如 果 读 者 根据 上 面 介绍 的 知识 比较 NFA 和 DFA， 可 能 会 得 出 结论 : 
一 般 情 况 下 ， 文 本 主导 的 DFA 引 苟 要 快 一 些 。 正 则 表达 式 主导 的 NFA 引 
擎 ， 因 为 需要 对 同样 的 文本 壬 试 不 同 的 子 表达 式 L 配 ， 可 能 会 浪 颖 时 间 
( 束 好 像 上 面 例子 中 的 3 个 分 文 〉。 

这 个 结论 是 对 的 。 在 NFA 的 匹配 过 程 中 ， 目 标 文 本 中 的 某 个 字符 可 
能 会 被 正则 表达 陈 中 的 不 同 部 分 重复 检测 〈 甚 至 有 可 能 被 同一 部 分 反复 
Ay). BU BEE SAP SIA TU ewe VLA, N SRE IAP RED, 
找到 匹配 ， 它 也 可 能 需要 再 一 次 应 用 《甚至 可 能 反复 多 次 ) o FAAS 
表达 却 可 能 匹配 成 功 ， 也 可 能 失败 ， 但 是 ， 直 到 抵达 正则 表达 陈 的 末尾 
之 前 ， 我 们 都 无 法 确 知 全 局 匹配 成 功 与 个 《也 残 是 说 “不 到 最 后 关头 不 
eD HEM Ges not over until the fat lady sings) ”， 但 这 人 句 话 又 不 符合 本 
段 的 语 境 ) 。 相 反 ，DEFA 引 人 擎 则 是 确定 型 的 〈deterministic ) 目标 
文本 中 的 每 个 字符 只 会 检查 (最 多 ) 一 裔 。 对 于 一 个 已 经 匹配 的 字符 ， 
你 无 法 知道 它 是 否 属 于 最 终 岂 配 ( 它 可 能 属于 最 终 会 失败 的 匹配 ) ， 但 
因为 引擎 同时 记录 了 所 有 可 能 的 匹配 ， 这 个 字符 只 需要 检测 一 次 ， 如 此 





[i 

正则 表达 陈 引 擎 所 使 用 的 两 种 基本 技术 ， 都 对 应 有 正式 的 名 字 : JE 
确定 型 有 筋 目 动 机 (NFA) MAEA KAHH (DFA) 。 这 两 个 名 
字 实 在 是 太 饶 舌 ， 所 以 我 坚持 只 用 DFA 和 NFA。 下 文中 不 会 出 现 它们 
HERT GEL) 。 

FAP Ta 22 TD OY AY 25 

因为 NFA 有 具有 表达 式 主导 的 特性 ， 引 擎 的 匹配 原理 残 非常 重要 。 我 
已 经 说 过 ， 通 过 改变 表达 式 的 编写 方式 ， 用 尸 可 以 对 表达 式 进 行 多 方面 
的 控制 。 拿 tonight 的 例子 来 说， 如果 改变 表达 式 的 编写 方式 ， 可 能 会 节 
省 很 多 工夫 ， 比 如 下 和 耐 这 3 种 方式 : 

e | to(ni(ght|te)|knight) 

e | tonite|toknight|tonight, 

e | to(k?night|nite), 

给 出 任意 文本 ， 这 3 个 表达 式 都 可 以 捕获 相同 的 结果 ， 但 是 它们 以 
不 同 的 方式 控制 引擎 。 现 在 ， 我 们 还 无 法 分 辨 这 3 者 的 优 务 ， 不 过 接 下 
来 会 看 到 

DEFA 的 情况 相反 一 一 引擎 会 同时 记录 所 有 的 匹配 选择 ， 因 为 这 3 个 
表达 式 最 终 能 够 捕获 的 文本 相同 ， 在 写法 上 的 差异 并 无 意义 。 取 得 一 个 
结果 可 能 有 上 百 种 途径 ， 但 因为 DFA 能 够 同时 记录 它们 CA ReaD, fF 
稍 后 评述 ) ， 选 择 哪 一 个 表达 式 并 无 区 别 。 对 纯粹 的 DFA 来 襄 ， 即 使 
abc 和 和 '[aa-a] (bb{1}b) c 看 来 相 委 巨大 ， 但 其 实 是 一 样 的 。 

如 果 要 描述 DFA， 我 能 想到 的 特征 有 : 

eDFA 克 配 很 迅速 。 

eDFA 克 配 很 一 致 。 

e 谈 论 DFA 匹 配 很 恼人 。 

最 终 我 会 展开 这 3 扩 。 

因为 NFA 是 表达 陈 主 导 的 ， 谈 论 它 十 件 很 有 意思 的 事情 。NEFA 为 创 
造 性 思维 提供 了 丰富 的 施展 空间 。 调 校 好 一 个 表达 式 能 带 来 许多 收益 ， 
Ved BEAN EW eR BR ORI LEAL UK ALR aK, HAT 
FFD Ae URAL SA. ONS RRSP RS eel, BTR NFA 
BEA op: = 回调 (backtracking) 。 


[E] 

Backtracking 

NFA 引擎 最 重要 的 性 质 是 ， 它 会 依次 处 理 各 个 子 表 达 式 或 组 成 元 
素 ， 壳 到 需要 在 两 个 可 能 成 功 的 可 能 中 进行 选择 的 时 候 ， 它 会 选择 其 
一 ， 同 时 记 住 另 一 个 ， 以 备 稍 后 可 能 的 需要 。 

需要 做 出 选择 的 情形 包括 量词 〈 诀 定 是 售 符 试 吨 一 次 匹配 ) 和 多 选 
ZR] CAREC TER TS Bea sc, FA PUM SA) 。 

不 论 选 择 那 一 种 途径 ， 如 果 它 能 匹配 成 功 ， 而 且 正 则 表达 式 的 余下 
部 分 也 成 功 了 ，[ 允 配 即 告 完成 。 如 果 正 则 表达 式 中 余下 的 部 分 最 终 罗 配 
失败 ， 引 擎 会 知道 需要 回调 到 之 前 做 出 选择 的 地 方 ， 选 择 其 他 的 备用 分 
MAKE. IAM, Sl BRASS AAACN A pera CBee EDL 
配 完 成 之 前 需要 的 所 有 途径 ) 。 


真实 世界 中 的 例子 : TE 


A Really Crummy Analogy 

[ea] aH] FLA ee TEER BET) es PR DET LS. RE SE 
路 ， 就 可 以 照 原 路 返回 ， 直 到 过 见面 包 习 标示 的 尚未 答 试 过 的 道路 。 如 
条 那 条 路 也 走 不 通 ， 你 可 以 继续 返回 ， 找 到 下 一 堆 面 包 届 ， 如 此 重复 ， 
和 直到 找到 出 路 ， 或 者 走 完 所 有 没有 壬 试 过 的 路 。 
在 许多 情况 下 ， 正 则 引擎 必须 在 两 个 《或 更 多 ) 选项 中 做 出 选择 
我 们 之 前 看 到 的 分 文 的 情况 融 是 一 例 。 另 一 个 例子 是 ， 在 遇 到 .…. 
x? AY, S| SE Ree A x, 。 对 于 xt... 的 情况 ， 宇 无 
疑问 ，'x 至 少 符 弃 匹配 一 次 一 一 因为 加 亏 要 求 必 须 瑟 配 人 至少 一 砍 。 第 
一 个 X 匹配 之 后 ， 此 要 求 已 经 满足 ， 需 要 决定 是 人 否 符 试 下 一 个 X o W 
果 诀 定 进行 ， 还 要 决定 是 个 匹配 第 三 个 X ， 第 四 个 X ， 如 此 继续 。 
次 选择 ， 其 实 就 是 漂 下 一 扒 “ 面 包 屑 ”， 用 于 提示 此 处 还 有 另 一 个 可 能 的 
选择 《〈 目 前 还 不 能 确定 它 能 含 匹 配 ) ， 保 留 起 来 以 备用 。 

一 个 徐 单 的 例子 

现在 来 看 个 完整 的 例子 ， 用 先前 的 to Cnitelknightlnight) 匹配 字符 
-‘hot-tonic: tonight! ， EEKE RACH, (ee MERIT) 。 第 一 个 元 
A UMASS Nee Ae Sil, Aly aol Ach’, Area PM 
PLACA. Feo Te Ko S| Bates, MEANMA ea 








(同样 也 会 失败 ) ， 然 后 是 第 三 个 。 这 时 候 上 能 够 匹配 ， 接 下 来 的 'o 
无 法 匹配 ， 因 为 字符 于 中 对 应 位 置 是 一 个 室 格 。 至 此 ， 本 轮 党 试 宣告 
WN o 

继续 下 去 ， 从 .. tonic... 开 始 的 尝试 则 很 有 意思 。to 匹 配 成 功 之 后 ， 
剩 下 的 3 个 多 选 分 支 都 成 为 可 能 。 引 擎 选取 其 中 之 一 进行 尝试 ， 留 下 其 
他 的 备用 《〔 也 就 是 酒 下 一 些 面包 屑 )》。 在 讨论 中 ， 我 们 假定 引擎 首先 选 
择 的 是 mite 。 这 个 表达 式 被 分 解 为 cm ti t't +e”, JE... COLO 
遇 失 败 。 但 此 时 的 情况 与 之 前 不 同 ， 这 种 失败 并 不 意味 着 整个 表达 式 匹 
配 失 败 一 一 因为 仍然 存在 没有 尝试 过 的 多 选 分 支 (就 好 像 是 ， 我 们 仍然 
可 以 找到 先前 留 下 的 面包 届 ) 。 假 设 引 擎 然后 选择 knight, ， 那 么 马上 
就 会 遭遇 失败 ， 因 为 怀 不 能 匹配 mm。 现在 只 剩 下 最 后 的 选项 night ， 
但 它 不 能 失败 。 因 为 night 是 最 后 尝试 的 选项 ， 它 的 失败 也 就 意味 着 整 
个 表达 式 在 .tonic..…. 的 位 置 匹 配 失败 ， 所 以 传动 机 构 会 驱动 引擎 继续 
前 进 。 

直到 引擎 开始 从 .. tonight! 处 开始 匹配 ， 情 况 又 变 得 有 趣 了 。 这 
一 次 ， 多 选 分 支 might 终于 可 以 匹配 字符 串 的 结尾 部 分 了 (于 是 整体 匹 
配 成 功 ， 现 在 引擎 可 以 报告 匹配 成 功 了 ) 。 


回调 的 两 个 要 局 


Two Important Points on Backtracking 

回调 机 制 的 基本 原理 并 不 难 理解 ， 还 是 有 些 细节 对 实际 应 用 很 重 
有 要。 它们 是 ， 面 对 众多 选择 时 ， 哪 个 分 文 应 当 首 移 选择 ? 回调 进行 时 ， 
应 该 选取 哪个 保存 的 状态 ? 第 一 个 问题 的 答案 是 下 面 这 条 重要 原则 : 
如 科 需 要 在 “进行 符 试 ?和 ”“ 跳 过 和 莹 斌 ?之 间 选 掺 ， 对 于 匹配 优先 量词 ， 引 
擎 会 优先 选择 “进行 葵 试 >， 而 对 于 忽略 优先 量词 ， 会 选择 < 跳 过 答 试 ”。 

此 原则 影响 深远 。 对 于 新 手 来 说 ， 它 有 助 于 解释 为 什么 匹配 优先 的 
量词 是 “匹配 优先 ”的 ， 但 还 不 完整 。 要 想 彻底 弄 清 楚 这 一 点 ， 我 们 需要 
了 解 回调 时 使 用 的 征 哪 个 〈 或 者 是 哪些 个 ) 之 前 保存 的 分 文 ， 答 案 旦 : 
距离 当前 最 近 储 存 的 选项 就 是 当 本 地 失败 强制 回溯 时 返回 的 。 使 用 的 原 

则 是 LIFO (lastin first out， 后 进 先 出 〉。 

用 面包 屑 比喻 束 很 好 理解 一 一 如 末 前 面 是 死路 ， 你 只 需要 治 原 路 返 
回 ， 直 到 找到 一 扒 面 包 习 为 上 。 你 会 遇 到 的 第 一 堆 面 包 屑 融和 是 最 近 订 下 
的 。 传 统 的 LIFO 比 喻 也 是 这 样 : 惑 像 堆 登 盘子 一 样 ， 最 后 登 上 去 的 盘 
TREERNE PRH. 





备用 状态 


Saved States 

用 NFA 正 则 表达 云 的 术语 来 说 ， 那 些 面包 屑 相当 于 “备用 状态 
(saved state) ”。 它 们 用 来 标记 : 在 需要 的 时 候 ， 匹 配 可 以 从 这 里 重新 
开始 尝试 。 它 们 保存 了 两 个 位 置 : 正则 表达 式 中 的 位 置 ， 和 未 尝试 的 分 
支 在 字符 串 中 的 位 置 。 因 为 它 是 NFEA 匹 配 的 基础 ， 我 们 需要 再 看 一 遍 某 
些 己 经 出 现 过 的 简单 但 详细 的 例子 ， 说 明 这 些 状 态 的 是 义 。 如 果 你 觉得 
现 有 的 内 容 都 不 难民 ， 请 继续 阅读 。 

未 进行 回调 的 匹配 

KAT fal A BI, H'ab? c 匹配 abc。'a 匹配 之 后 ， 匹 配 的 当前 
状态 如 下 : 


‘a be’ | a b?c) 
现在 轮 到 'b? 了， 正则 引擎 需要 决定 ， 是 需要 尝试 b 呢 ， 还 是 跳 
过 ? 因为 ? 是 风 配 优先 的 ， 它 会 和 尝试 还 配 。 但 是 ， 为 了 确保 在 这 个 笠 试 
最终 失 败 之 后 能 够 恢复 ， 引 擎 会 把 : 


‘a be’ lab? Ka 
添加 到 备用 状态 序列 中 。 也 就 是 说 ， 稍 后 引擎 可 以 从 下 面 的 位 置 继 
Ze VOR: 从 正则 表达 式 中 的 'b? 之后， 字符 串 的 b 之 前 (也 就 是 当前 的 
MA) 匹配 。 这 实际 上 残 是 跳 过 mb 的 匹配 ， 而 问号 容许 这 样 做 。 
引擎 放下 面包 屑 之 后 ， 残 会 继续 同 前 ， 检 查 b 。 在 示例 文本 中 ， 
它 能 够 匹配 ， 所 以 新 的 当前 状态 变 为 : 


最 终 的 'c 也 能 成 功 匹 配 ， 所 以 整个 匹配 完成 。 备 用 状态 不 册 需 要 
了 了， 所 以 不 再 保存 它们 。 

进行 了 回调 的 匹配 

如 朱 需 要 匹配 的 文本 古 'ac"， 在 营 试 b 之 前 ， 一 切 都 与 乙 表 的 过 程 
相同 。 显 然 ， 这 次 中 无 法 匹配 。 也 了 束 是 六， 对 ………?” ,进行 答 斌 的 路 走 不 
通 。 因 为 有 一 个 备用 状态 ， 这 个 “局 部 匹配 失败 ?并 不 会 录 致 芭 体 匹配 失 
败 。 引 擎 会 进行 回 斋 ， 也 融 是 说 ， 把 “当前 状态 ?切换 为 最 近 傈 存 的 状 
So ERAP, ILE: 


ac ab? cj 
A A 


E b 尝试 之 前 保存 的 尚未 尝试 的 选项 。 这 时 候 ，' 可 以 匹配 c， 所 
以 整个 匹配 宣告 完成 。 

不 成 功 的 匹配 

现在 ， 我 们 用 同样 的 表达 式 匹配 abX’。 在 尝试 b 以 前 ， 因 为 存在 
问号 ， 保 存 了 这 个 备用 状态 : 


‘a bX’ | lab? ec 

[b BEILA, MEARE PAIGE MIS, ALAN 'c 无 法 匹配 X。 于 
是 引擎 会 回调 到 之 前 的 状态 , Kb e RLA. WIA, XARMA 
失败 了 。 如 果 还 有 其 他 保存 的 状 在， 回调 会 继续 进行 ， 但 是 此 时 不 存在 
其 他 状态 ， 在 字符 串 中 当前 位 置 开 始 的 整个 匹配 也 束 宣 告 失败 。 

事情 到 此 结束 了 吗 ? RA. OUR EAR EAS AB PRT, Fo 
次 符 试 正则 表达 陈 ”， 这 可 能 被 想象 为 一 个 伪 回 调 (pseudo- 
backtrack) 。 匹 配 重 新 开始 于 : 


‘a bX’ “ab?c] 
从 这 里 重新 开始 整个 匹配 ， 如 同 之 前 一 样 ， 所 有 的 道路 都 走 不 通 。 
绽 下 来 的 两 次 从 ”* 到” “) 都 告 失败 ， 所 以 最 终 会 报告 匹 取 失 
败 。 


忽略 优先 的 匹配 
现在 来 看 最 开始 的 例子 ， 使 用 忽略 优先 匹配 量词 ， 用 'ab? ? c 来 匹 
配 ‘abc?。'a 匹配 之 后 的 状态 如 下 : 


| 
* bo’ | a b??c) 
À A 


接 下 来 轮 到 'b? ? ,，， 引 擎 需要 进行 选择 : AALE b, ， 还 是 忽 
He? 因为 ? ? 是 忽略 优 移 的 ， 它 会 首先 符 试 忽略 ， 但 是 ， 为 了 能 够 从 拓 
败 的 分 文中 恢复 ， 引 擎 会 保存 下 面 的 状态 : 


‘a be’ | a be! 
BS LRA. Fæ 527) nee H EURAP 'b 来 
笑 试 罗 配 文本 中 的 b《〈 我 们 知道 这 能 够 下 配 ， 但 是 正则 引擎 不 知道 ， 它 
甚至 都 不 知道 是 含 会 要 用 到 这 个 备用 状态 ) 。 状 态 保 存 之 后 ， 它 会 继续 


IA, va AMS VO RC eae RS: 


- 
"a bc’ | ab?? c] 
A A 


[c 无 法 匹配 省， 所 以 引擎 必须 回调 到 之 前 体 存 的 状态 : 


》 [ 
a bc | a bc) 
A A 


显然 ， 此 时 匹配 可 以 成 功 ， 接 下 来 的 'c 匹配 ‘CO 。 于 是 我 们 得 到 了 
与 使 用 匹配 优先 的 'ab? c 同样 的 结果 ， 虽 然 两 者 所 走 的 路 不 相同 。 


El H- VL AE ye 


Backtracking and Greediness 

如 朱 工 具 软 件 使 用 的 是 NFA 正 则 表达 去 主导 的 回调 引擎 ， 理 解 正 则 
表达 式 有 的 回潮 原理 束 成 了 蜗 效 完成 任务 的 天 键 。 我 们 已 经 看 到 和 | ADL 
ACD SCH? ? 的 忽略 优先 是 如 何 工作 的 ， 现 在 来 看 性 写 和 加 号 。 

尾气、 加 号 及 其 回 六 

如 有 果 认 为 x 大 基本 等 同 于 'x? x? x? x? x? X? ... (或 者 更 确切 地 
ME (eee Oe A SITST) QE De Dao 
之 前 没有 大 的 莽 列 。 每 次 测试 星 亏 作用 的 元 系 之 前 ， 引 擎 都 会 保存 一 个 
状态 ， 这 样 ， 如 来 测试 失败 (或 者 测试 进行 下 去 但 过 失败 〉， 还 能 够 从 
保存 的 状态 开始 匹配 。 这 个 过 程 会 不 断 重 复 ， 直 到 包含 星 号 的 答 试 完全 
失败 为 止 。 

所 以 ， 如 果 用 '[0-9]+ 来 匹配 ‘a+1234-num*，'[0-9] 遇 到 4 之 后 的 空 
格 无 法 匹配 ， 而 此 时 加 所 能 够 回调 的 位 置 对 应 了 四 个 你 存 的 状态 : 
1 234 num 
12 34 num 
123 4 num 
LESA num 

EME. EENM. [0-9], 的 答 斌 都 代表 一 种 可 能 。 在 [0-9] 
巡 到 衬 格 匹配 矢 败 时 ， 引 擎 回调 到 最 近 你 存 的 状态 《也 束 是 最 下 面 的 位 


| 本 è ? 
@) ， 选 择 正则 表达 式 中 的 “1* aap 22234 num 当 
然 ， 到 此 整个 正则 表达 式 已 经 结束 ， 所 以 我 们 知道 ， 整 个 匹配 宣告 完 
aR. 


a 
a 
a 
a 


BER, SAER 并 不 在 列表 中 ， 因 为 加 号 限定 的 元 素 至 少 


要 匹配 一 次 ， 这 是 必要 条 件 。 那 么 ， 如 果 正 则 表达 式 是 OCP, iy 
状态 会 保存 吗 ? GER: 这 个 问题 得 动 点 脑筋 ) 。 要 知道 答案 ， 请 翻 
到 下 一 页 。 

重新 审视 更 完整 的 例子 

有 了 更 详细 的 了 解 之 后 ， 我 们 再 来 看 看 第 152 WA”. * ([0-9][0- 
9]) 的 例子 。 这 一 次 ， 我 们 不 是 只 用 “匹配 优先 ”来 解释 为 什么 会 得 到 那 
样 的 匹配 结果 ， 我 们 能 够 根据 NFA 的 匹配 机 制 做 出 精确 解释 。 

‘CA:95472.:USA’ 为 例 。 在 和 .类 ,成功 匹 配 到 字符 串 的 末尾 时 ， 星 
号 约束 的 点 号 匹配 了 13 个 字符 ， 同 时 保存 了 许多 备用 状态 。 这 些 状 态 表 


明 稍 后 的 匹配 开始 的 位 置 : 在 正则 表达 式 中 是 “ E D, 
在 字符 串 中 则 是 点 号 每 次 匹配 时 保存 的 备用 状态 。 

现在 我 们 已 经 到 了 字符 串 的 末尾 ， 并 把 控制 权 交 给 第 一 个 上 [0-9] ， 
显然 这 里 的 匹配 不 能 成 功 。 没 问题 ， 我 们 可 以 选择 一 个 保存 的 状态 来 进 
行 尝试 (实际 上 保存 了 许多 的 状态 ) 。 现 在 回溯 开始 ， 把 当前 状态 设置 
为 最 近 保 存 的 状态 ， 也 惑 是 … 类 匹配 最 后 的 A 之 前 的 状态 。 忽 略 〈 或 
者 ， 如 果 你 愿意 ， 可 以 使 用 * 交 还”) 这 个 匹配 ， 于 是 有 机 会 用 '[0-9] 匹 
配 这 个 A， 但 这 同样 会 失败 。 

这 种 “回调 - 竹 试 ”的 过 程 会 不 断 循 环 ， 有 直到 引擎 交还 2 为 止 ， 在 这 
里 ， 第 一 个 '[0-9] 可 以 匹配 。 但 是 第 二 个 [0-9] 仍然 无 法 匹配 ， 所 以 必 
须 继续 回调 。 现 在 ， 之 前 答 试 中 第 一 个 上 [0-9] 是 人 否 匹 配 与 本 次 答 试 并 无 
关系 了 ， 回 调 机 制 会 把 当前 的 状态 中 正则 表达 式 内 的 对 应 位 置 设 置 到 第 
一 个 '[0-9] 以 前 。 我 们 看 到 ， 当 前 的 回调 同样 会 把 字符 串 中 的 位 置 设置 
到 7 以 前 ， 所 以 第 一 个 '[0-9] 可 以 匹配 ， 而 第 二 个 上 [0-9] 也 可 以 《匹配 


2) 。 所 以 ， 我 们 得 到 一 个 匹配 结果 ARATE USA 41 得 到 72。 
需要 注意 的 是 : 第 一 ， 回 溯 机 制 不 但 需要 重新 计算 正则 表达 式 和 文 
本 的 对 应 位 置 ， 也 需要 维护 括号 内 的 子 表达 式 所 匹配 文本 的 状态 。 在 匹 
配 过 程 中 ， 每 次 回溯 都 把 当前 状态 中 正则 表达 式 的 对 应 位 置 指 向 括号 之 
HY, E&x 《〈[0-9][0-9]) ，。 在 这 个 简单 的 例子 中 ， 所 以 它 等 价 于 


因此 我 说 “使 用 第 一 个 [0-9] 之 前 的 位 置 >。 然 而 ， 回 
久 对 括号 的 这 种 处 理 ， 不 但 需要 同时 维护 $1 的 状态 ， 也 会 影响 罗 卫 的 交 





最 后 需要 注意 的 一 上 把 也 许 读 者 早 束 了 解 : 由 星 写 《或 其 他 任何 匹配 
优先 量词 ) 限定 的 部 分 不 受 后 面 元 素 影 响 ， 而 只 古 匹 配 尽 可 能 多 的 凡 


容 。 在 我 们 的 例子 中 ， x ,在 点 号 匹配 失败 之 前 ， 完 全 不 知道 ， 到 底 应 
该 在 哪个 数字 或 者 是 其 他 什么 地 方 停 下 来 。 在 从 类 《〈[0-9]+) 的 例子 中 
我 们 看 到 ， '[0-9]+ 只 能 匹配 一 位 数字 (5153) 。 


关于 匹配 优先 和 回溯 的 更 多 内 容 


More About Greediness and Backtracking 


NFAFIDFA SbF R ITÉ OBC TSE AA EE CHAS i) 。 

(DFA 不 支持 忽略 优先 ， 所 以 我 们 现在 只 关注 匹配 优先 ) 。 我 将 考察 两 
种 引擎 共同 支持 的 匹配 优先 特性 ， 但 只 会 用 ”NFA 来 讲解 。 这 些 内 容 对 
DFA 也 适用 ， 但 原因 与 NFA 不 同 。DFA 是 匹配 优先 的 ， 使 用 起 来 很 方 
便 ， 这 一 点 我 们 只 需要 记 住 就 够 了 ， 而 且 介 绍 起 来 也 很 乏味 。 相 反 ， 
NFA “的 匹配 优先 就 很 值得 一 谈 ， 因 为 NFA 是 表达 式 主 导 的 ， 所 以 匹配 
优先 的 特性 能 产生 许多 神奇 的 结果 。 除 了 忽略 优先 ，NFA 还 提供 了 其 他 
许多 特性 ， 比 如 环视 、 条 件 判 断 (conditions) 、 反 癌 引 用 ， 以 及 固化 分 
组 。 最 重要 的 是 NFA 能 让 使 用 者 直接 操控 匹配 的 过 程 ， 如 果 运 用 得 当 ， 
这 会 种 来 很 大 的 方便 ， 但 也 可 能 市 来 菜 些 性 能 问题 (具体 见 第 6 章 ) 。 


测试 答案 


o 162 页 测试 的 答案 

PRA [0-9] 匹配 “a*1234"num ， 备 用 状态 是 否 包括 “a* 1234-num’ ? 
答案 是 否定 的 。 之 所 以 提 这 个 问题 ， 是 因为 这 种 错误 很 常见 。 记 得 吗 ， 由 星 号 限定 的 
部 分 总 是 能 够 匹配 。 如 果 整 个 表达 式 部 由 星 号 控制 ， 它 就 能 够 匹配 任何 内 容 。 在 字符 
串 的 开始 位 置 ， 传 动机 构 对 引 党 进行 第 一 次 尝试 时 的 状态 ， 当 然 算 匹配 成 功 ， 在 这 种 
情况 下 ,正则 表达 式 匹 配 “a1234"num ， 而 且 在 此 处 结尾 一 一 它 根 本 没有 触及 到 那 
如 果 没 答对 也 不 要 紧 ， 因 为 这 种 情况 还 是 有 可 能 发 生 的 。 如 果 在 表达 式 中 ，[0-9]x， 
之 后 还 出 现 了 某 些 元 素 ， 因 为 它们 的 存在 ， 引 营 在 达到 下 面 状态 之 衣 无 法 获得 全 局 匹 
Ac: 








M2, BRL 会 生成 下 面 的 状态 ; 





不 考 谍 这 些 关 元 的 话 ， 匹 配 的 结 生 通 币 是 相通 的 。 我 介绍 的 内 容 适 
用 于 两 种 引擎 ， 除 了 使 用 表达 陈 主 寻 的 NFA 引 擎 。 读 完 本 重 ， 读 者 会 明 
日 ， 在 什么 情况 下 两 种 引擎 的 结束 会 不 一 样 ， 以 及 为 什么 会 不 一 致 。 


史 配 优先 的 问题 


Problems of Greediness 

在 上 例 中 已 经 看 到 ，'.x* 经 常会 匹配 到 一 行文 本 的 末尾 GEO) 。 
这 是 因为 .* 匹配 时 只 从 自身 出 发 ， 匹 配 尽 可 能 多 的 内 容 ， 只 有 在 全 局 
匹配 需要 的 情况 下 才 会 “被 迫 ? 交 还 一 些 字 符 。 有 些 时 候 问 题 很 严重 。 来 
看 用 一 个 匹配 双 引 号 文本 的 例子 。 读 者 首先 想到 的 可 能 是 '" kK" A 
么 ， 请 运用 我 们 刚刚 学 到 的 关于 '.x 的 知识 ， 猿 一 猿 用 它 匹 配 下 面 文本 
FJAR: 


The name " McDonald's " is said " makudonarudo " in Japanese. 


既然 知道 了 匹配 原理 ， 其 实 我 们 并 不 需要 猜测 ， 因 为 我 们 “知道 续 
果 。 在 最 开始 的 双 引 号 匹配 之 后 ，' .类 能 够 匹配 任何 字符 ， 所 以 它 会 一 
直 逻 配 到 字符 串 的 末尾 。 为 了 让 最 后 的 双 引 号 能 够 岂 配 ，'. 类 会 不 断交 
还 字符 〈 或 者 ， 更 确切 地 说 ， 是 正则 引擎 强迫 它 回 退 ) ， 和 直到 满足 为 
止 。 最 后 ， 这 个 正则 表达 式 匹 配 的 结果 就 是 : 

The name "McDonald's" is said "makudonarudo" in Japanese. 
这 显然 不 是 我 们 期 望 的 结果 。 我 之 所 以 提醒 读者 不 要 过 分 依赖 
太 ， 这 束 是 原因 之 一 ， 如 果 不 注意 匹配 优先 的 特性 ， 结 果 往 往 出 乎 总 

El 

那么 ， 我 们 如 何 能 够 只 取得 " McDonald's " We? 关键 的 问题 在 于 要 
认识 到 ， 我 们 希望 匹配 的 不 是 双 引 号 之 间 的 “任何 文本 ， 而 是 “ 除 双 引 
GASP FET SCAN”. WRH TA" ] 关 ,取代 "大 ， 束 不 会 出 现 上 面 的 问 
E 

使 用 '" A" ]* ”时 ， 正 则 引擎 的 基本 匹配 过 程 跟 上 面 是 一 样 的 。 
第 一 个 双 引 喜 匹 配 之 后 ， | "]x ,会 匹配 尽 可 能 多 的 字 生 。 在 本 例 
H, Wæ McDonald's, ALA TA" ] 无 法 匹配 之 后 的 双 引 写 。 此 时 ， 控 制 
权 转 移 到 正则 表达 式 末 尾 的 '" 。 而 它 刚 好 能 够 四 配 ， 所 以 获得 全 局 到 
Ac: 


The name "McDonald's", is said "makudonarudo" in Japanese. 

FKE, H RELIE — P Pee SA Tat, Ae Ke STR 
H, IA" | 能 够 匹配 换行 符 ， 而 点 号 则 不 能 。 如 果 不 想 让 表达 式 匹 配 换 
行 符 ， 可 以 使 用 IIA " An] 。 





多 字符 < 引文 


Multi-Character"Quotes" 

第 1 章 出 现 了 对 HTML tagh Li, pig, dias eio<B>very</B 
> HH “very "iH AAT IA. X <B>... </B> VEAL Na HK BT 
S| -SVEACHI TS IZ IR TAI, RENI SFE HM Se APPA AY <B> 
和 去 / 阳 >。 与 双 引 号 字符 串 的 例子 一 样 ， 使 用 & 匹配 多 字符 “引文 ?也 
会 出 错 : 

-*<B>Billions</B> and <B>Zillions</B> of sung 
[<B>.* </B> PIERE. 会 一 直 匹 配 该 行 结尾 的 字 
I EWR EHTE] <B> 能 够 轧 配 为 止 ， 也 就 是 最 后 一 个 过/B>， 


而 不 是 与 匹配 开头 的 '<B>> 对 应 的 '</B>> 。 

不 驻 的 是 ， 因 为 结束 tag 不 是 单个 字符 ， 所 以 不 能 用 之 前 的 办 法 ， 
也 就 是 “排除 型 字符 组 ”来 解决 ， 即 我 们 不 能 期 望 用 '<B 二 [</B 二 ]* 
</B> 解决 问题 。 字 人 符 组 只 能 代表 单个 字符 ， 而 我 们 需要 的 ' 雪 /也 > 是 
HFI. ADER NBS] 迷惑 ， 它 只 是 表示 一 个 不 等 于 过 、 
>>、/、B 的 字符 ， 等 价 于 '[MW 过 >B] ， 而 这 显然 不 是 我 们 想 要 的 “ 除 
</ 昌 > 结构 之 外 的 任何 内 容 ”〈 当 然 ， 如 果 使 用 环视 功能 ， 我 们 可 以 规 
E, FELDER </B> ， 下 一 节 会 出 现 这 种 应 用 ) 。 


使 用 忽略 优先 量词 


Using Lazy Quantifiers 

上 上面 的 问题 之 所 以 会 出 现 ， 原 因 在 于 标准 量词 是 匹配 优先 的 。 余 些 
NFA 支 持 忽略 优先 的 量词 (二 141) ， 类 ? 就 是 与 x 对 应 的 忽略 优先 量 
ije RAIH <B>.*>? </B> 来 匹配 : 

... <B> Billions </B> and <B > Zillions </B> of suns... 

开始 的 "过 B> MiZ, LA? EREA m VLA EFT, 
因为 它 古 忽略 优先 的 。 于 十， 控制 权 交 给 后 面 的 '< 符号 : 


BD </B>! 





"<B> Billions:’ 


此 时 "过 无 法 匹配 ， 所 以 控制 权 交 还 给 .x ?,， 因 为 还 有 未 尝试 过 
的 还 配 可 能 (事实 上 能 够 进行 多 次 轧 配 答 试 ) 。 它 的 区 配 答 试 是 步 步 大 
营 的 (begrudgingly) , MH ASRI... SPE tons: tiy F MRH 
B。 此 时 ， 关 ?又 必须 选择 ， 十 继续 符 试 匹配 ， 还 是 忽略 ? 因为 它 是 忽 
略 优先 的 ， 会 首先 选择 忽略 。 接 下 来 的 过 仍然 无 法 匹配 ， 所 以 -大 ? 
必须 继续 答 试 未 匹配 的 分 文 。 在 这 个 过 程 重 复 8 次 之 后 ， .类 ? RAȚ 
配 了 Billions， 此 时 ， 解 下 来 的 "和 (URES <B> ) 都 能 匹配 : 

<< B>Billiens</B> and <BS>a4il1llions</B> of suns--- 

所 以 我 们 知道 了 ， 星 号 之 美的 匹配 优先 量词 有 时 候 的 确 很 方便 ， 但 
ARAL STH RAC. TRIN, RR TCC Se el EVR EHH T, 
为 它们 做 到 其 他 办 法 很 难 做 到 《甚至 无 法 做 到 ) 的 事情 。 当 然 ， 缺 乏 经 
验 的 程序 员 也 可 能 钳 误 地 使 用 忽略 优先 量词 。 事 实 上 ， 我 们 刚刚 做 的 或 
FAEM. WRH <B>. x? </B> 来 匹配 : 


“<B>Billions and <B>Zillions</B> of suns: 
i 


结果 如 上 图 ， 虽 然 我 假设 匹配 的 结果 取决 于 有 具体 的 需求 ， 但 我 仍然 
认为 ， 这 种 情况 下 的 结果 不 是 用 户 期 望 的 。 不 过 ， A? 必然 会 匹配 
Zillions 左 边 的 二 By>， 一 直到 二 /也 > 。 

这 个 例子 很 好 地 说 明了 ， 为 什么 通常 情况 下 ， 忽 略 优先 量词 并 不 是 
ARRAN CREAR. ELK" WATE, HT" | 蔡 换 点 号 能 避 
免 跨越 引号 的 匹配 一 一 这 正 是 我 们 希望 实现 的 功能 。 

如 果 文 持 排除 环视 (至 133) ， 我 们 束 能 得 到 与 排除 型 字符 组 相当 
的 结果 。 比 如 ，'(? ! <B>) 这 个 测试 ， 只 有 当 雪 B> 不 在 字符 串 中 
的 当前 位 置 时 才能 成 功 。 这 也 是 '<B>>.*? </B> 中 的 点 号 期 望 匹配 
的 内 容 ， 所 以 把 点 号 改 为 '((? ! <B>) .) 得 到 的 正则 表达 式 ， 就 
能 准确 匹配 我 们 期 望 的 内 容 。 把 这 些 综合 起 来 ， 结 果 有 点 儿 难 看 懂 ， 所 
以 我 选用 市 注释 的 宽松 排列 模式 (号 111) 来 讲解 : 


<B> # “匹配 开头 的 <B> 

# 然后 只 匹配 尽 可 能 少 的 内 容 
(?! <B> ) # PAKAB... 
. Eo... 任何 字符 都 可 以 

) *? = 

</B> # ... 直到 遇 到 结束 标记 


使 用 了 环视 功能 之 后 ， 我 们 可 以 重新 使 用 普通 的 匹配 优先 量词 ， 这 
样 看 起 来 更 清楚 
<B> 
( 


# “匹配 开头 的 <B> 
# 然后 匹配 尽 可 能 多 的 内 容 
(Fl x72 B>) E A MAA cB? ... 
o... 任何 字符 都 可 以 
# ”( 现 在 是 匹配 优先 的 量词 ) 
</B> # <ANNO> ... 直到 结束 分 隔 符 匹配 

现在 ， 坏 视 功 能 会 茶 止 正则 表达 式 的 主体 (main body) 匹配 也 > 
和 二 /B 二 之 外 的 内 容 ， 这 也 是 我 们 之 前 试图 用 忽略 优先 量词 解决 的 问 
题 ， 所 以 现在 可 以 不 用 忽略 优先 芒 能 了 。 这 个 表达 式 还 有 能 够 改进 的 地 
方 ， 我 们 将 在 第 6 章 关 于 效率 的 讨论 中 看 到 它 C270) 。 


史 配 优先 和 急 略 优先 部 期 鹿 获 得 匹配 


Greediness and Laziness Always Favor a Match 


回忆 一 下 第 2 草 中 显示 价格 的 例子 《到 51) 。 我 们 会 在 本 和 草 的 多 个 


)* 


地 方 仔细 检查 这 个 例子 ， 所 以 我 完 重 申 一 下 基本 的 问题 ， 因 为 浮 点 数 的 
显示 问题 ，“1.625” 或 者 “3.00” 有 了 时候 会 变 

成 “1.62500000002828” 和 “3.00000000028822”。 为 解决 这 个 问题 ， 我 使 
用 : 


$price=~s/(\.\d\d[1-9]?)\d * /$1/; 

来 保存 $price 小 数 点 后 头 两 到 三 位 十 进 制 数 字 。 \d\d 匹配 最 开始 
两 位 数字 ， 而 '[1-9]? 用 来 匹配 可 能 出 现 的 不 等 于 零 的 第 三 个 数字 。 

然后 我 写 道 : 

到 现在 ， 我 们 能 够 下 配 的 任何 内 容 都 是 希望 保留 的 ， 所 以 用 括号 包 
图 起来， 作为 $1 捕获 。 然 后 束 能 在 replacement 字 和 从 串 中 使 用 $1。 如 果 这 
个 正则 表达 式 能 够 匹配 的 文本 就 等 于 $1， 那 么 我 们 就 是 用 一 个 文本 取代 
它 本 和 丑 一 一 这 没有 多 少 意义 。 然 而 ， 我 们 继续 匹配 $1 括号 之 外 的 部 分 。 
在 将 代 字符 串 中 它们 并 不 出 现 ， 所 以 结果 束 是 它们 被 删 反 了 。 在 本 例 
中 ,，“ 要 有 删 挥 ”的 文本 就 是 任何 多 余 的 数字 ， 也 就 是 正则 表达 式 中 末尾 的 
\d* 匹配 的 部 分 。 

到 现在 看 起 来 一 切 正 常 ， 但 是 ， 如 果 $price 的 数据 本 身 规范 格式 ， 
会 出 现 什么 问题 呢 ? 如 果 $price 是 27.625， 那 么 \Advd[1-9]? 能 够 四 配 整 
个 小 数 部 分 。 因 为 \dx 无 法 匹配 任何 字符 ， 整 个 符 换 就 是 用 625 和 蔡 
换 '.625’ 一 一 相当 于 日 费 工 夫 。 

结果 当然 是 我 们 需要 的 ， 但 是 个 存在 更 有 效率 的 办 法 ， 只 进行 真正 
必要 的 替换 〈 也 就 是 ， 只 有 当 \dx 确实 能 够 匹配 到 某 些 字符 的 时 候 才 
BA) WE? 当然 ， 我 们 知道 怎样 表示 “至 少 一 位 数字 ”! 只 要 把 \dx # 
换 为 \d+ 就 好 了 : 

$price =~ s/(\.\d\d[1-9]?)\d+/$1/ 

对 于 “1.62500000002828” 这 样 复杂 的 数字 ， 正 则 表达 去 仍然 有 效 ; 
但 是 对 于 “9.43” 这 种 数字 ， 末 尾 的 \d+ 不 能 匹配 ， 所 以 不 会 替换 。 所 
以 ， 这 是 个 了 不 起 的 改动 ， 对 吗 ? 不 ! 如 果 要 处 理 的 数字 是 27.625， 情 
部 如 何 呢 ?我 们 希望 这 个 数字 能 够 被 急 略 ， 但 是 这 不 会 及 生 。 请 仔细 想 
想 27.625 的 匹配 过 程 ， 尤 其 是 表达 式 如 何 处 理 ‘5’ 这 个 数字 。 

知道 答案 之 后 ， 这 个 问题 就 变 得 非常 简 时 了。 在 
(NANG t1=917)\ 4) ppap 27.625 之 后 ， Midt 无 法 匹配 。 但 这 并 不 会 
影 啊 整 个 表达 式 的 匹配 ， 因 为 就 正则 表达 式 而 言 ， 由 上 [1-9] 匹配 5 只 是 
可 选 的 分 支 之 一 ， 还 有 一 个 备用 状态 尚未 笠 试 。 它 容许 '[1-9]? 匹配 一 
个 空 字符 ， 而 把 5 留 给 至 少 必 须 匹 配 一 个 字符 的 Ad+ 。 于 是 ， 我 们 得 到 





的 是 错误 的 结果 : .625 被 蔡 换 成 了 .62。 

如 果 '[1-9]? 是 忽略 优先 的 又 如 何 呢 ? 我 们 会 得 到 同样 的 匹配 结 
R, BASA AULE ”5 再 回溯 ”的 过 程 ， 因 为 忽略 优先 的 [1-9]? ? 首 
先 会 急 略 党 试 匹配 的 选项 。 所 以 ， 忽 略 优先 量词 并 不 能 解决 这 个 问题 。 


匹配 人 优先、 忽略 优 和 抑 和 回溯 的 要 目 


The Essence of Greediness,Laziness,and Backtracking 

CAA EE er VET, IEW AGATE Tou, Tie Vea 
W re Ane Tose, MBENERI, Fx AE OBEY 
子 来 说 ) 它们 没有 区 列 。 如 末 全 局 匹配 需要 ， 无 论 征 匹配 优 移 《或 是 忽 
略 优 移 ) ， 在 过 到 “本 地 匹配 失败 ?时 ， 引 擎 都 会 回归 到 备用 状态 〈 投 照 
EARR HREAN) > AERAR KAR. DEURE 
AEI JR 25] SR ELER, EU ASEAN S A AY AY RE o 

DN ea EHC aI, FEV HCE AAS OCG EN To Be AN TR] EY 
CR Wine PA a ETE BE), (Ae, AA EUNA A AY RENAE 
后 ， 才 会 最 终 报告 匹配 失败 。 

相反 ， 如 有 果 只 有 一 条 可 能 的 路 径 ， 那 么 使 用 匹配 优先 量词 和 忽略 优 
先 量 词 的 正则 表达 陈 都 能 找到 这 个 结果 ， 只 是 他 们 答 试 路 径 的 次 序 不 
同 。 在 这 种 情况 下 ， 选 择 匹配 优先 还 是 忽略 优先 ， 并 不 会 影响 匹配 的 络 
宁 ， 受 影响 的 只 是 引擎 在 达到 最 终 L 配 之 前 前 要 壬 试 的 次 数 〈 这 是 天 于 
效率 的 问题 ， 第 6 章 将 会 谈 到 ) 。 

最 后 ， 如 采 存 在 不 止 一 个 可 能 的 匹配 绪 末 ， 那 么 理解 下 配 优 匈 、 急 
Resco Wea, HAA De eye PE. ' " .大 "有 3 个 可 能 的 匹 
配 结果 : 


The name “McDonald's" s said "makudonarudo" in Japenese. 
ee 


我 们 知道 ， 使 用 匹配 优先 星 号 的 ' " . 夫 " 匹配 最 长 的 结果 ， 而 使 用 
忽略 优先 星 号 的 '" .类 ? " 匹配 最 短 的 结果 。 


占有 优先 量词 和 国 化 分 组 


Possessive Quantifiers and Atomic Grouping 

上 一 页 中 “625 的 例子 展示 了 关于 NEFA 匹 配 的 重要 知识 ， 也 让 我 们 
认识 到 ， 和 针对 这 个 具体 的 例子 ， 状 虑 不 仔细 束 会 市 来 问题 。 针 对 菏 些 流 
派 近 供 了 工具 来 帮助 我 们 ， 但 是 在 接触 它们 以 前 ， 必 须 彻 压 弄 明日 “ 匹 








配 优先 、 急 略 优先 和 回溯 的 要 由 ”这 一 三。 如 果 读 者 还 有 不 明日 的 地 
方 ， 请 务必 仔细 阅读 上 一 市 。 

那么 ， 仍 然 来 考虑 '.625’ 的 例子 ， 想 想 我 们 真正 的 目的 。 我 们 知 
道 ， 如 果 匹 配 能 够 进行 到 C\\d\d[1-9]? ) \d+ 中 标记 的 位 置 ， 我 们 就 
不 希望 进行 回 沛 。 也 就 是 说 ， 我 们 希望 的 是 ， 如 来 可 能 ，'[1-9] 能 够 一 
个 字符 ， 果 真如 此 的 话 ， 我 们 不 希望 交还 这 个 字符 。 或 者 说 的 更 直 日 一 
些 驶 是 ， 如 采 需 要 的 二 ， 我 们 和 希望 在 '[1-9] 匹配 的 字符 交还 之 前 ， 整 个 
表达 式 就 匹配 失败 。【〔 这 个 正则 表达 式 匹 配 '.625? 时 的 问题 在 于 ， 它 不 
会 下 配 失 败 ， 而 是 进行 回 滴 ， 尝 试 其 他 备用 状态 〉。 

那么 ， 如 末 我 们 能 够 避免 这 些 备用 状态 呢 〈 也 驶 是 在 [1-9] 进 行 答 试 
ZA ME? 保存 的 状态，) ?如果 疫 有 退路 ，'[1-9] 的 匹配 就 不 会 
XE MAMER mE! 但 是 ， 如 果 没 有 了 这 个 备用 状态 会 友 生 什 
A? 如 果 我 们 用 这 个 表达 式 来 匹配 .5000' 呢 ? 此 时 :上 [1-9] 不 能 匹配 ， 就 
WAS ia Ze, WF [1-9] ， 让 之 后 的 \d+ 能 够 匹配 需要 删除 的 数字 。 

听 起 来 ， 我 们 有 两 种 相反 的 要 求 ， 但 是 仔细 考虑 考虑 融会 友 现 ， 我 
们 真正 需要 的 证 ， 只 有 在 茶 个 可 选 元 素 已 经 匹配 成 功 的 情况 下 才 抛 并 此 
元 素 的 “忽略 ?状态 。 也 了 惑 是 说 ， 如 末 [1-9], REE IQUE AC, wi AO 
对 应 的 备用 状态 ， 这 样 就 永远 也 不 会 回 退 。 如 末 正 则 表达 式 的 流派 文 持 
回 化 分 组 '(? >.…) C139) ， 或 者 占有 优先 量词 [1-9]? + = 
142) ， 就 可 以 这 么 做 。 首 先 来 看 固化 分 组 。 

H O >...) 实现 固化 分 组 

具体 来 说 ， 使 用 '(? >.) 的 匹配 与 正 弟 的 匹配 并 无 差别 ， 但 是 
如 条 匹配 进行 到 此 结构 之 后 〈 也 束 是 ， 进 行 到 闭 括号 之 后 ) ， 那 么 此 疆 
构 体 中 的 所 有 备用 状态 都 会 被 放 乔 。 也 融 是 说 ， 在 固化 分 组 匹配 疆 
时 ， 它 已 经 匹配 的 文本 已 经 固化 为 一 个 单元 ， 只 能 作为 整体 而 保留 或 放 
茎 。 括 所 内 的 子 表达 却 中 未 答 试 过 的 备用 状态 都 不 复 存 在 了 ， 所 以 回 渊 
永远 也 不 能 选择 其 中 的 状态 《至 少 是 ， 当 此 结构 匹配 完成 时 ,，“ 锁 定 
docked in) ”在 其 中 的 状态 ) 。 

所 以 ， 让 我 们 来 看 ' Add ©? >[1-9]? ) ) \d+ 。 在 固化 分 组 
内 ， 量 词 能 够 正常 工作 ， 所 以 如 果 '[1-9] 不 能 匹配 ， 正 则 表达 式 会 返回 
? 留 下 的 备用 状态 。 然 后 匹配 脱离 固化 分 组 ， 继 续 前 进 到 "d+ 。 在 这 
种 情况 下 ， 当 控制 权 离开 固化 分 组 时 ， 没 有 备用 状态 需要 放弃 《〈 因 为 在 
回 化 分 组 中 没有 创建 任何 备用 状态 ) 。 

如 来 [1-9], 能 够 匹配 ， 匹 配 脱离 固化 分 组 之 后 ， ?7 ,保存 的 备用 状 
态 仍然 存在 。 但 是 ， 因 为 它 属 于 已 经 结束 的 固化 分 组 ， 所 以 会 被 抛弃 。 


匹配 .625’ 或 者 .625000 时 就 会 发 生 这 种 情况 。 在 后 一 种 情况 下 ， 放 弃 
那些 状态 不 会 带 来 任何 麻烦 ， 因 为 \d+ 匹配 的 是 “> ， 到 这 里 正 
则 表达 式 已 经 完成 匹配 。 但 是 对 于 和 .625’ 来 说 ， 因 为 \d+ 无 法 匹配 ， 正 
则 引擎 需要 回调 ， 但 回溯 又 无 法 进行 ， 因 为 备用 状态 已 经 不 存在 了 。 既 
然 没 有 能 够 回溯 的 备用 状态 ， 整 体 匹 配 也 就 失败 ，“625:' 不 需要 处 理 ， 
而 这 正 是 我 们 期 望 的 。 

固化 分 组 的 要 虽 

从 第 168 页 开始 的 “匹配 优先 、 忽 略 优 先 和 回潮 的 要 则 ”这 一 节 ， 说 
明了 一 个 重要 的 事实 ， 即 匹配 优先 和 忽略 优先 都 不 会 影响 需要 检测 路 径 
的 本 身 ， 而 只 会 影响 检测 的 顺序 。 如 果 不 能 匹配 ， 无 论 是 按照 匹配 优先 
还 是 忽略 优先 的 顺序 ， 最 终 每 条 路 径 都 会 被 测试 。 

然而 ， 回 化 分 组 与 它们 截然 不 同 ， 因 为 固化 分 组 会 放弃 菜 些 可 能 的 
路 径 。 根 据 具 体 情 况 的 不 同 ， 放 弃 备 用 状态 可 能 会 导致 不 同 的 结果 : 

e 毫 无 影响 如 果 在 使 用 备用 状态 之 前 能 够 完成 匹配 ， 固 化 分 组 就 不 
会 影响 匹配 。 我 们 刚刚 看 过 “625000: 的 匹配 。 全 局 匹配 在 备用 状态 尚未 
起 作用 之 前 就 已 经 完成 。 

e 导 致 号 配 失败 放弃 备用 状态 可 能 意味 着 ， 本 来 有 可 能 成 功 的 匹配 
现在 不 可 能 成 功 了 。 :6.25' 的 例子 就 是 如 此 。 

e AR VL ACR. 在 某 些 情况 下 ， 放 弃 备 用 状态 可 能 得 到 不 同 的 匹配 


上 
2i 


e 加 快报 各 匹配 失败 的 速度 如 果 不 能 找到 匹配 对 象 ， 放 莽 备 用 状态 


可 能 能 让 正则 引擎 更 快 地 报告 匹配 失败 。 先 做 个 小 测验 ， 然 后 我 们 来 


w 小 测验 : '(? >. 类 ? ) 是 什么 意思 ? 它 能 匹配 什么 文本 ? 请 翻 
I FMEA EE 

菜 些 状态 可 能 你 留 ” 在 匹配 过 程 中 ，3 引 擎 退出 固化 分 组 时 ， 放 莽 有 的 
只 是 固化 分 组 中 创建 的 状态 。 而 之 前 创建 的 状态 依然 你 留 ， 所以， 如 果 
Si id 固化 分 组 部 分 匹配 的 文本 会 全 
部 交还 。 

使 用 固化 分 组 加 快 匹 配 失 败 的 速度 ”我们 一 眼 束 能 看 出 ，' 作 w+: 
无 法 匹配 *Subject'， 因 为 'Subject PAG AS, {HIE S| BMA 
试 才 能 得 到 这 个 结论 。 

第 一 次 检查 ': Wf, Awt 已 经 史 配 到 了 字符 串 的 结尾 ， 傈 存 了 重 干 
状态 \w 匹配 的 每 个 字符 ， 都 对 应 有 “忽略 ”的 备用 状态 《第 一 个 除 
外 ， 因 为 加 号 要 求 至 少 匹 配 一 次 ) 。': 无 法 匹配 字符 串 的 末尾 ， 所 以 





正则 引擎 会 回调 到 最 近 的 备用 状态 : 


¢ i 》 | 和 
Subject | \wt 31 


此 处 的 字符 是 必 ，'; 仍然 无 法 匹配 。 于 是 回 湖 -测试 -失败 的 循环 
会 不 断 肥 生 ， 最 终 退 回 开始 的 状态 : 


Subject | ANW :1 
此 处 仍然 无 法 匹配 成 功 ， 所 以 报告 整个 表达 式 无 法 匹配 。 
测验 从 案 


o 171 页 测试 的 答案 
'(2>. #2) | 会 匹配 什么 ? 


它 永 远 无 法 匹配 任何 字符 。 充 其 量 它 只 能 算是 个 相当 复杂 的 正则 表达 式 ， 但 不 匹配 任 


TFR, OUR .xj 的 忽略 优先 表示 ， 它 限定 的 是 一 个 点 号 ， 所 以 首选 的 分 支 就 是 急 
略 点 号 ， 把 匹配 点 号 的 状态 保留 下 来 备用。 但是， 这 个 保存 的 状态 马上 又 会 被 放弃 ， 
因为 匹配 退出 了 固化 分 组 ， 所 以 真正 魏 读 的 只 有 忽略 总 吕 的 分 支 。 总 是 被 忽略 的 东西 ， 
实际 上 相当 于 不 存在 。 
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法 匹配 最 后 的 字符 ， 那 么 它 当 然 无 法 匹配 上 + 交还 的 任何 字符 。 

既然 我 们 知道 ， ANw+ 匹配 结束 之 后 ， 从 任何 备用 状态 开始 测试 都 
不 能 得 到 全 局 匹配 ， 就 可 以 命令 正则 引擎 不 必 检 查 它 们 : 1A (? > 
\wt) 。 我 们 已 经 全 和 面 了 解 了 正则 表达 式 的 匹配 过 程 ， 可 以 使 用 固化 分 
组 来 控制 wt 的 匹配 ， 放 茎 备用 的 状态 (因为 我 们 知道 它们 没有 
用 ) ， 提 高 效 紊 。 如 果 存 在 可 以 匹配 的 文本 ， 那 么 固化 分 组 不 会 有 任何 
影响 ， 但 是 如 末 不 存在 能 够 匹配 的 文本 ， 放 大 这 些 无 用 的 状态 会 让 正则 
引擎 更 快 地 得 出 无 法 匹配 的 结论 《先进 的 实现 也 许 能 够 目 动 进行 这 样 的 
Hit, 251) 。 

我 们 将 在 第 6 章 看 到 (第 269 页 ) ， 固 化 分 组 非常 有 价值 ， 我 怀疑 它 
可 能 会 成 为 最 第 用 的 技巧 。 


占有 优先 量词 ，? +、 类 +、++ 和 {fm，n}+ 


Possessive Quantifiers,?+,++,++,and{m,n}+ 

占有 优先 量词 与 匹配 优先 量词 很 相似 ， 只 是 它们 从 来 不 交还 已 经 区 
WWFT. RITE Awt 的 例子 中 看 到 ， 加 亏 在 匹配 结束 之 前 创建 了 很 
少 的 备用 状态 ， 而 占有 优先 的 加 号 会 直接 放 莽 这 些 状 态 (或 者 ， 更 形象 
地 说 ， 并 不 会 创造 这 些 状态 )。 

你 也 许 会 想 ， 占 有 优先 量词 和 固化 分 组 关系 非常 紧密 。 像 \w++ 这 
样 的 占有 优先 量词 与 | O >w) 的 匹配 结果 完全 相同 ，; 只 是 写 起 来 
更 加 方便 而 已 〈 注 7) 。 使 用 占有 优先 量词 ， CA (2 >\wH) ,可 以 写 
作 w+: ，' CA\d\d (? >[1-9]? ) ) \d+ 写 做 C\\d\d[1-9]? +) 
Ad+ 。 请 务必 区 分 '(? >M) +A C? M+) 。 前 者 放弃 'M 创建 的 
备用 状态 ， 因 为 'M 不 会 制造 任何 状态 ， 所 以 这 样 做 没什么 价值 。 而 后 
者 放弃 "M+ 创造 的 未 使 用 状态 ， 这 样 做 显然 有 意义 

比较 C? >M) + 和 ' (? >M+) | 显然 后 者 就 对 应 于 M++ , 
但 如 果 表 达 式 很 复杂 ， 例 如 CW" ITA ]) x+ ， 从 占有 优先 量词 转换 
为 固化 分 组 时 大 家 往往 会 想到 在 括号 中 添加 ?7 二 得 到 | C2 > \\" [IA 
"D x 。 这 个 表达 式 或 许 有 机 会 实现 你 的 目的 ， 但 它 显 然 不 等 于 那个 
使 用 占有 优先 量词 的 表达 式 ; EMRE M+ 写作 ' 〈? >M) + 一 
样 。 正 确 的 办 法 是 ， 去 挥 表示 占有 优先 的 加 号 ， 用 固化 分 组 把 余下 的 部 
分 包括 起 来 : 6 C2 > A" IA") *) | 
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The Backtracking of Lookaround 

人 切 看 时 并 不 容易 认识 到 ， re ee ee 
AUF] AAR RR. YAMADA 4 种: 定型 《positive) 和 否定 型 
(negative) ， 有 顺序 环视 与 敢 序 环视 。 它 们 只 是 简单 地 测试 其 中 表达 
式 能 人 奋 在 当前 位 置 匹 配 后 面 的 区 本 (顺序 环视 ) ， 或 者 前 面 的 文本 ( 逆 
序 环 视 ) 。 

深入 点 看 ， 在 NFA 的 世界 中 包含 了 备用 状态 和 回 洲 ， 环 视 是 怎么 实 
现 的 ? 环视 结构 中 的 子 表达 陈 有 目 己 的 世界 。 See ees 
ITUR WE. GORE PS FIA TUBE BIDE AC, ARNE? 肯定 型 
环视 会 认为 自己 匹配 成 功 ; 而 否定 环视 会 认为 匹配 失败 。 在 任何 一 种 情 
况 下 ， 因 为 天 注 的 只 是 匹配 存在 与 从 (在 刚才 的 例子 中 ， 的 确 存 在 匹 
a AE E 
EIE 


如 采 环 视 中 的 子 表达 陈 无 法 匹配 ， 结 果 如 何 呢 ? 因为 它 只 应 用 到 这 
个 “世界 ?中 ， 所 以 回调 时 只 能 选择 当前 环视 结构 中 的 备用 状态 。 也 就 是 
说 ， 如 果 正 则 表达 云 用 现 ， 需 要 进一步 回调 到 当前 的 环视 结构 的 起 点 以 
前 ， 它 束 认 为 当前 的 子 表达 式 无 法 匹配 。 对 肯定 型 环视 来 说 ， 这 束 总 味 
看 失败 ， 而 对 于 合 定 型 环视 来 襄 ， 这 意味 看 成 功 。 在 任何 一 种 情况 下 ， 
都 没有 你 留 备 用 状态 “如 末 有 ， 那 么 子 表达 式 的 匹配 痊 试 束 没 有 络 
R) , HABRA EF 

所 以 我 们 知道 ， 只 要 环视 结构 的 匹配 竹 试 结束 ， 它 了 驶 不 会 留 下 任何 
备用 状态 。 任 何 备用 状态 和 例子 中 肯定 环视 成 功 时 的 情况 一 样 ， 都 会 家 
本 
量词 。 

用 肯定 坏 视 模拟 固化 分 组 

如 果 流 派 本 里 文 持 固化 分 组 ， 这 么 做 可 能 有 所 多 此 一 举 ， 但 如 果 流 
派 不 文 持 固化 分 组 ， 这 么 做 就 很 有 用 : 如 果 所 使 用 的 工具 支持 肯定 坏 
视 ， 同 时 可 以 在 肯定 环视 中 使 用 捕获 括号 (大 多 数 风格 虱 文 持 ， 但 也 有 
些 不 文 持 ，Tcl 就 是 如 此 ) ， 束 能 模拟 实现 固化 分 组 和 占有 优先 量词 。 
“(7? >regex) 可 以 用 (? = (regex) ) U 来 模拟 。 举 例 来 说 ， 比 较 
(C2? >\wt) : 和 和 (0? = Awt) )M: o 

环视 中 的 \w+ 是 死 配 优先 的 ， 筷 会 下 配 尽 可 能 多 的 字符 ， 也 残 是 
整个 单词 。 因 为 它 在 环视 结构 中 ， 当 环视 结束 之 后 ， 备 用 状态 都 会 放 径 
(和 固化 分 组 一 样 ) 。 但 与 固化 分 组 不 一 样 的 是 ， 虽 然 此 时 确实 捕获 了 
这 个 单词 ， 但 它 不 是 全 局 匹配 的 一 部 分 〈 这 了 束 是 环 锦 的 意义 ) 。 这 里 的 
关键 束 是 ， 后 面 的 \1 捕获 的 融 是 环视 结构 捕获 的 单词 ， 而 这 当然 会 匹 
配 成 功 。 在 这 里 使 用 "1 并 非 多 此 一 举 ， 而 是 为 了 把 匹配 从 这 个 单词 续 
RAIL BET RA. 

这 个 技 马 比 真正 的 固化 分 组 要 慢 一 些 ， 因 为 需要 额外 的 时 间 来 重新 
匹配 上 1 的 文本 。 不 过 ， 因 为 坏 视 结构 可 以 放 莽 备用 状态 ， 如 来 冒 写 无 
法 匹配 ， 它 的 失败 会 来 得 更 快 一 些 。 


多 选 结构 也 古 死 配 优 移 的 吗 


Is Alternation Greedy? 

多 选 分 文 的 工作 原理 非常 重要 ， 因 为 在 不 同 的 正则 引擎 中 它们 是 了 迎 
PRANTL. QUART BAY BP ey SC ABBE VEC, FUE SES 
We? 或 者 说 ， 如 末 不 只 一 个 多 选 分 文 能 够 岂 配 ， 最 后 完 葛 应 该 选择 哪 一 
个 呢 ?如 有 果 选 择 的 是 匹配 文本 最 长 的 多 选 分 文 ， 有 人 也 许 会 说 多 选 结构 


也 是 匹配 优先 的 ;如 条 选择 的 是 匹配 文本 了 最短 的 多 选 分 文 ， 有 人 也 许 会 
说 它 是 忽略 优先 的 ? 那么 《如 果 只 能 是 一 个 的 话 ) FGETS? 

让 我 们 看 看 Perl、PHP、Java、.NET 以 及 其 他 语言 使 用 的 传统 型 
NEFA 引 人 敬 。 遇 到 多 选 结构 时 ， 这 种 引擎 会 按照 从 左 到 右 的 顺序 检 奏 表达 
式 中 的 多 选 分 文 。 合 正则 表达 陈 人 《SubjectlIDate) : - Ut, F 
‘Subject|Date H, BEZNE Subject 。 如 末 能 够 四 配 ， 束 转 而 处 理 
接 下 来 的 部 分 (也 就 是 后 面 的 ': . ) 。 如 有 果 无 法 匹配 ， 而 此 时 又 有 其 他 
多 选 分 文 〈 吏 是 例子 中 的 "Date ) ， 正 则 引擎 会 回调 来 答 试 它 。 这 个 例 
子 同样 说 明 ， 正 则 引 获 会 回溯 a 到 存在 尚未 笑 试 的 多 选 分 文 的 地 方 。 这 
个 过 程 会 不 断 重 复 ， 直 到 完成 全 局 匹配 ， 或 者 所 有 的 分 文 〈 也 束 是 本 例 
中 的 所 有 多 选 分 文 ) abs AIE. 

所 以 ， 对 于 币 见 的 传统 型 NFA 引 擎 ， 用 tourltoltournament 来 匹 
fic ‘three-tournaments: won’ 时 ， 会 得 到 什么 结果 呢 ? 在 尝试 到 ‘three:_ 
tournaments-won’? 时 ， 在 每 个 位 置 进行 的 思 配 笑 试 都 会 失败 ， 而 且 每 次 
答 试 时 ， 都 会 检查 所 有 的 多 选 分 文 〈 并 且 失 败 ) 。 而 在 这 个 位 置 ， 第 一 
个 多 选 分 文 tour 能 够 匹配 。 因 为 这 个 多 选 结构 是 正则 表达 式 中 的 最 后 
HBI, [tour 匹配 结束 也 吏 意 味 独 整个 表达 陈 匹 配 完 成 。 其 他 的 多 选 分 
MRAZ T o 

因此 我 们 知道 ， 多 选 结构 既 不 是 匹配 优先 的 ， 也 不 是 忽略 优先 的 ， 
而 是 按 顺 序 排列 的 ， 至 少 对 传统 型 NFA 来 说 是 如 此 。 这 比 匹 配 优先 的 多 
选 结构 更 有 用 ， 因 为 这 样 我 们 能 够 对 匹配 的 过 程 进行 更 多 的 控制 JE 
则 表达 式 的 使 用 者 可 以 用 它 下 令 :“ 先 试 这 个 ， 再 试 那 个 ， 最 后 试 为 一 
个 ， 直 到 试 出 结果 为 止 ”。 

不 过 ， 也 不 是 所 有 的 流派 都 文 持 按 序 排列 的 多 选 结 构 。DEFA 和 
POSIX NFA 确 实 有 匹配 优先 的 多 选 结构 ， 它 们 总 是 匹配 所 有 多 选 分 文中 
能 史 配 最 多 文本 的 那个 《也 残 是 本 例 中 的 [tournament,) 。 但 是 ， 如 末 
你 使 用 的 是 Perl、PHP、.NET、java.util.regex， 或 者 其 他 使 用 传统 型 
NFA 的 工具 ， 多 选 结构 束 古 按 序 排列 的 。 


及 据 有 序 多 选 结构 的 价值 


Taking Advantage of Ordered Ajternation 

回 过 头 来 看 第 167 页 C\\d\d[1-9]? ) \d* 的 例子 。 如 果 我 们 明白 ， 
\\d\d[1-9]? 其实 等 于 \Add 或 者 \Adxd[1-9] ， 我 们 就 可 以 把 整个 表达 
式 重新 写作 ' (CAddlhNAdd[1-9]) \d* 。 (这 并 非 必须 的 改动 ， 只 是 举例 
WH) 。 这 个 表达 式 与 之 前 的 完全 一 样 吗 ? 如 末 多 选 结构 古 匹 配 优先 





的 ， 那 么 答案 就 是 肯定 的 ， 但 如 果 多 选 结构 是 有 序 的 ， 两 者 就 完全 不 一 


我 们 来 看 多 选 结 构 有 序 的 情形 。 首 先 选择 和 测试 的 是 第 一 个 多 选 分 
L, WR ERIL, Pew SARA \d* 那里。 如果 还 有 其 他 
的 数字 ， Adx 能 够 岂 配 它们 ， 也 束 是 任何 不 为 零 的 数字 ， 它 们 是 原来 
问题 的 根源 (如 果 读 者 还 记得 ， 当 时 的 问题 就 在 于 ， 这 位 数字 我 们 只 项 
望 在 括号 里 匹配 ， 而 不 通过 括号 外 面 的 \d 关 ) 。 所 以 ， 如 果 第 一 个 多 
选 分 文 无 法 匹配 ， 第 二 个 多 选 分 文 同样 无 法 匹配 ， 因 为 二 者 的 开头 是 一 
样 的 。 即 使 第 一 个 多 选 结构 无 法 匹配 ， 正 则 引擎 仍然 会 对 第 二 个 多 选 分 
MET FEST IN. 

不 过 ， 如 末 交 换 多 选 分 文 的 顺序 ， 变 成 " C\\d\d[1-9]]\\\d\d) \d x, 
它 就 等 价 于 匹配 优先 的 ' Q\d\d[1-9]? ) \d* 。 如 果 第 一 个 多 选 分 支 结 
尾 的 上 [1-9] 匹配 失败 ， 第 二 个 多 选 分 文 仍 然 有 机 会 成 功 。 我 们 使 用 的 仍 
PSAP ARI E, (AAR RY» K S VER IG 
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第 一 次 拆 分 '[1-9]? ,成 两 个 多 选 分 文 时 ， 我 们 把 较 短 的 分 文 放 在 了 
前 面 ， 得 到 了 一 个 不 具备 匹配 优先 功 能 的 '? ,，。 在 这 个 具体 的 例子 中 ， 
这 么 做 没有 意义 ， 因 为 如 果 第 一 个 多 选 分 文 不 能 匹配 ， 第 二 个 肯定 也 无 
法 史 配 。 我 经 党 看 到 这 样 没有 意义 的 多 选 结构 ， 对 传统 型 ”NFA 来 说 ， 
这 肯定 不 对 。 我 曾 看 到 有 一 本 书 以 a ( Cab) xbr) 为 例 讲解 传统 型 
NFA ”正则 表达 式 的 括号 。 这 个 例子 显然 没有 音义， 因为 第 一 个 多 选 分 
SC! Cab) 大 ,水 远 也 不 会 匹配 失败 ， 所 以 后 面 的 其 他 多 选 分 文 坚 无 意 
义 。 你 可 以 继续 添加 : 


[ax ((ab)*|b*|.* |partridge*in*a*pear*tree| [a-z]) 
a 


这 个 正则 表达 式 的 意义 都 不 会 有 丝毫 的 改变 。 要 记 住 的 是 ， 如 果 多 
选 分 文 是 有 序 的 ， 而 能 够 匹配 同样 文本 的 多 选 分 文 又 不 只 一 个 ， 束 要 小 
心安 排 多 选 分 文 的 先后 顺序 。 

有 序 多 选 结构 的 陷阱 

有 序 多 选 分 文 容许 使 用 者 控制 期 望 的 匹配 ， 因 此 极为 便利 ， 但 也 会 
给 不 明 束 里 的 人 造成 号 烦 。 如 果苗 要 蕊 配 Jan 31 之 类 的 日 期 ， 我 们 需 
要 的 就 不 是 简单 的 "Jan:[0123][0-9] ， 因 为 这 样 的 表达 式 能 够 匹 
配 ‘Jan:00? 和 ‘Jan:39 这 样 的 日 期 ， 却 无 法 下 配 和 Jan:7’。 

一 种 办 法 是 把 日 期 部 分 拆 开 。 用 '0? [1-9] 匹配 可 能 以 0 开头 的 前 九 
天 的 日 期 。 用 '[12][0-9] 处 理 十 号 到 二 十 九 写 ， 用 '3[01] 处 理 最 后 两 


天 。 把 上 面 这 些 连 起 来 ， 就 是 Jan (0? [1-9]I[12][0-9]l3[01]) 。 

如 果 用 这 个 表达 式 来 到 配 ‘Jan 31 is Dad's birthday:， 结 果 如 何 呢 ? 
我 们 希望 获得 的 当然 是 Jan 31， 但 是 有 序 多 选 分 文 只 会 捕获 Jan 3’. A 
PENG? 在 匹配 第 一 个 多 选 分 文 '0? [1-9], 时 ， 前 面 的 '0? ,无 法 匹配 ， 但 
征 这 个 多 选 分 文 仍 然 能 够 匹配 成 功 ， 因 为 [1-9] 能 够 匹配 53:。 因 为 此 多 
选 分 文 位 于 正则 表达 式 的 末尾 ， 所 以 匹配 到 此 完成 。 

如 末 我 们 重新 安排 多 选 结构 的 顺序 环视 ， 把 能 够 匹配 的 数字 最 短 的 
放 到 最 后 ， 这 个 问题 就 解决 了 : Jan.《〈[12][0-9]l3[01]I0? [1-9]) ，。 

另 一 种 办 法 是 使 用 Jan: (31|[123]0|[012]? [1-9]) ， 。 但 这 也 要 求 我 
们 仔细 地 安排 多 选 分 文 的 顺序 避免 问题 。 还 有 一 种 办 法 是 Jan COL- 
[12][0-9]? |3[01]? |[4-9]〉,， 这 标 不 论 顺 序 坏人 视 如 何 部 能 获得 正确 结 
Ro CORA STIX 3 个 不 同 的 表达 式 ， 会 有 很 多 发 现 ( 我 会 给 读者 一 些 
时 间 来 想 这 个 问题 ， 尽 管 下 一 页 的 补充 内 容 会 有 所 帮助 ) 。 


拆 分 日 期 的 几 种 办 法 


下 面 几 种 办 法 都 可 以 用 来 解决 第 176 页 的 日 期 匹配 问题 ,正则 表达 式 中 的 元 素 能 
匹配 日 历 中 对 应 元 素 的 部 分 。 


Ei1 12 13 14 15 16 17 18 19) 
了 区 
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NFA、DFA 和 POSIX 
NFA,DFA,and POSIX 
最 左 最 长 规则 


"The Longest-Leftmost" 

之 前 我 们 说 过 : GR eae ELAES EM BJ BDFA S| 
擎 ， 而 在 此 位 置 又 有 一 个 或 多 个 匹配 的 可 能 ，DFA 就 会 选择 这 些 可 能 
中 最 长 的 。 因 为 在 所 有 同样 从 最 左边 开始 的 可 能 的 匹配 文本 中 它 是 最 长 
的 ， 所 以 叫 它 “最 左 最 长 的 〈longest-leftmost) ”匹配 。 

绝对 最 长 

这 里 说 的 “最 长 ”不 限于 多 选 结 构 。 看 看 NFA 如 何 用 'one (self) ? 
(selfsufficient) ? 来 匹配 字符 串 oneselfsufficient。NFA ”首先 匹配 
one ， 然 后 是 匹配 优先 的 " (self) ? , FAR (selfsufficient) ? XIL 
配 sufficient。 它 显然 无 法 匹配 ， 但 整个 表达 式 并 不 会 因此 匹配 失败 ， 
为 这 个 元 素 不 是 必须 匹配 的 。 所 以 ， 传 统 型 NFA 返 回 
cnsse-5sn csnr， 放 弃 没 有 尝试 的 状态 (POSIX NFA 的 情况 与 此 
不 同 ， 我 们 稍 后 将 会 看 到 ) 。 


与 此 相反 ，DFA 会 返回 更 长 的 结果 : -Su Ee chen’. 如果 
最 开始 的 "self) ? 因为 荣 些 原因 无 法 匹配 ，NFA 也 会 返回 跟 DFA 一 
REZ, EA (self) ? 无 法 匹配 ， | (selfsufficient) ? 束 能 成 功 
匹配 。 传 统 型 NEFA 不 会 这 样 ， 但 是 DFA 则 会 这 样 ， 因 为 会 选择 最 长 的 可 
能 匹配 。DFA 间 时 记录 多 个 匹配 ， 在 任何 时 候 都 清 条 所 有 的 匹配 可 
能 ， 所 以 它 能 做 到 这 一 点 。 

我 选 这 个 简单 的 例子 是 因为 它 很 容易 理解 ， 但 是 我 布 望 读者 能 够 明 
白 ， 这 个 问题 在 现实 中 很 重要 。 举 例 来 说 ， 如 采 硕 望 匹 配 连 续 多 行文 
本 ， 常 见 的 情况 是 ， 一 个 逻辑 行 Clogical line) 可 以 分 为 许多 现实 的 
行 ， 每 一 行 以 肥料 线 结尾 ， 例 如 : 
SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c \ 

missing.c msg.c node.c re.c version.c 


读者 可 能 希望 用 'Aw+=. 类 ,来 匹配 这 种 “var=value” 的 数据 ， 但 是 正 
则 表达 式 无 法 识别 连续 的 行 〈 在 这 里 我 们 假设 点 号 无 法 匹配 换行 符 ) 。 
为 了 匹配 多 行 ， 恋 者 可 能 需要 在 表达 式 最 后 添加 (Nan. 大 ) 类, ， 得 到 





| 和 = iN Ge 
GAS) 显然， 这 意味 着 任何 后 继 的 逻辑 行 都 能 匹配 ， 只 
要 他 们 以 反 和 斜 线 结尾 。 这 看 起 来 没 错 ， 但 在 传统 型 NFA 中 行 不 通 。 .大 
到 达 行 尾 的 时 候 ， 已 经 匹配 了 反 和 僚 线 ， 而 表达 式 中 后 面 的 部 分 不 会 强迫 
HITEH C152) 。 但 是 ，DFA 能 够 匹配 更 长 的 多 行文 本 ， 因 为 它 确 
实 是 最 长 的 。 

如 果 能 够 使 用 忽略 优先 的 量词 ， 也 许可 以 考虑 用 它们 来 解决 问题 ， 
例如 ANw+=. 大 ? (Na 类? ) 类 。 这 样 点 号 每 次 实际 匹配 任何 字符 之 
前 ， 都 需要 测试 转 义 的 换行 符 部 分 ， 这 样 只 束 能 够 匹配 换行 符 之 前 的 
反 和 斜 线 。 不 过 这 也 行 不 通 。 如 果 忽 略 优先 量 词 匹 配 某 些 可 选 的 部 分 ， 必 
然 是 在 全 局 匹配 必须 的 情况 下 发 生 。 但 是 在 本 例 中 ，'= 后 面 的 所 有 部 
分 都 不 是 必须 匹配 的 ， 所 以 没有 东西 会 强迫 忽略 优先 量词 匹配 任何 字 
Ca 

这 个 问题 还 有 其 他 的 解决 办 法 ， 我 们 会 在 下 一 章 继续 这 个 问题 (所 
186) 。 


POSIX 和 和 最 左 最 长 规则 


POSIX and the Longest-Leftmost Rule 

POSIX 标 准 规定 ， 如 来 在 字 从 串 的 菜 个 位 置 和 存在 多 个 可 能 的 匹配 ， 
应 当 返 回 的 是 最 长 的 号 配 。 

POSIX 标 准 文 档 中 使 用 了 “最 左边 开始 的 最 长 匹配 (Jongest of the 
leftmost) ”。 它 并 没有 规定 必须 使 用 DFA， 那 么 ， 如 果 和 希望 使 用 NFA 来 
实践 POSIX， 程 序 员 应 该 如 何 做 ?如 果 你 希望 执行 POSIX NFA, ABA 
须 找 到 完整 的 oe3e--3 en 和 所 有 的 连续 行 ， 虽 然 这 个 结果 是 
违反 NFA“ 天 性 ”的 。 

传统 型 NFA 引 擎 会 在 第 一 次 找到 匹配 时 停 下 来 ， 但 是 如 末 让 所 继续 
答 试 其 他 分 文 〈 状 在 ) 会 怎样 呢 ? 每 次 匹配 到 表达 式 的 末尾 时 ， 它 都 会 
获得 另 一 个 可 能 的 匹配 结束 。 如 末 所 有 的 分 文 都 穷 扩 了 ， 恕 能 从 中 选择 
最 长 的 匹配 结 未 。 这 样 ， 我 们 束 得 到 了 一 人 台 POSIX NFA. fe EI PI 
tH, NFA VLA’ (self) ? 时 保存 了 一 个 备用 状态 : 


j [ É d 
one (self)? selfsuf- .. . one selfsufficient > 
aiid -> ficient) ? 在 ” > EB 


型 NFA 在 oneseL35sufticient 之 后 停止 匹配 ， 
而 POSIX NFA 仍 然 会 继续 检查 余下 的 所 有 状态 ， 最 终 得 到 那个 更 长 





的 结果 (其 实 是 最 长 的 ) aa. 
第 7 昔 有 一 个 例 于 ， 可 以 让 Perl 模 拟 POSIX 的 做 法 ， 返 回 最 长 的 匹配 


i> Paty 


ZIT (7225) 。 
速度 和 效率 


Speed and Efficiency 

U RAER ENFANZ Ze BOT Dy SSE ea ea 〈 对 提供 回调 的 传统 
型 NFA 来 说 ， 这 确实 是 一 个 问题 ) ， 那 么 POSIX NFA 的 效率 束 更 值得 天 
注 ， 因 为 它 需 要 进行 更 多 的 回调。POSIX NFA 需 要 尝试 正则 表达 式 的 所 
有 变 体 〈 译 注 4) 。 第 6 章 告诉 我 们 ， 正 则 表达 式 写 得 糟 料 的 话 ， 史 配 的 
NE Ee BAK 

DFA 的 效率 

文本 主导 的 DFA 巧 妙 地 避免 了 回调 造成 的 效率 问题 。DEFA 同 时 记录 
了 所 有 可 能 的 匹配 ， 这 样 来 提高 速度 。 它 是 如 何 做 到 这 一 切 的 呢 ? 

DFA 引擎 需要 更 多 的 时 间 和 内 存 ， 它 第 一 次 轴 见 正则 表达 式 时 ， 
在 做 出 任何 尝试 之 前 会 用 比 NFA 详 细 得 多 的 (也 是 截然 不 同 的 ) 办 法 来 
分 析 这 个 正则 表达 式 。 开 始 演 试 匹配 的 时 候 ， 它 已 经 内 建 了 一 张 路 线 图 
(Cmap) ， 摘 述 “ 通 到 这 个 和 这 个 字符 ， 吏 诅 选 择 这 个 和 那个 可 能 的 匹 
配 ”?。 字 符 串 中 的 每 个 字符 都 会 按照 这 张 路 线 图 来 由 配 。 

有 时 候 ， 构 造 这 张 路 线 图 可 能 需要 相当 的 时 间 和 内 存 ， 不 过 只 要 建 
六 了 针对 特定 正则 表达 式 的 路 线 图 ， 结 果 束 可 以 应 用 到 任意 长 度 的 文 
本 。 这 了 吏 好 像 为 你 的 电动 车 充电 一 样 。 首 先 ， 你 得 把 车 俘 到 车 库 里 面 ， 
a mew (ARB RY SA, TaN see ae i 


NFA 理论 与 现实 


NFA (译注 5) 真正 的 数学 和 计算 学 意义 是 不 同 于 通常 说 的 “NFA 引 党 ”的 。 在 理论 
上 ,NFA $o DFA 引 芝 应 该 匹配 完全 一 样 的 文本 , 提供 完全 一 样 的 功能 。 但 是 在 实际 中 ， 
因为 人 们 需要 更 强 的 功能 ， 更 具 表达 能 力 的 正则 表达 式 ， 它 的 语意 发 生 了 变化 。 反 向 
引用 项 征 一 例 。 

DFA 引擎 的 设计 方案 就 排除 了 肥 向 引用 , 但 是 对 于 真正 (数学 意义 上 的 ) 的 NFA 引 党 
来 说 ， 提 供 反 向 引用 的 支持 只 需要 很 小 的 改动 。 这 样 我 们 就 得 到 了 一 个 功能 更 强大 的 
工具 ,但 它 绝对 是 非 正则 (nonregular) 的 (数学 意义 上 的 ) 。 这 是 什么 意思 呢 ? Rit, 
你 不 应 该 继续 叫 它 “NFA”, 而 是 “不 正则 表达 式 (nonregular expressions)”， 因 为 这 个 
名 词 才 能 描述 (在 数学 意义 上 ) 新 的 情形 。 但 是 实际 没 人 这 么 做 ， 所 以 这 个 名 字 就 这 
样 流传 下 米 ， 虽 从 实现 万 式 都 不 再 是 【数学 意义 上 的 ) NFA, 

这 对 用 户 有 什么 意义 ?显然 没有 什么 意义 。 作 为 用 户 ， 你 不 需要 关心 它 是 正则 还 是 非 
正则 ,而 只 需要 知道 它 能 为 你 做 什么 (也 就 是 本 章 的 内 容 )， 

对 那些 项 望 了 解 更 多 的 正则 表达 式 的 理论 的 人 ， 经 典 的 计算 机 科学 教学 文本 是 ，Aho、 
Sethi, Ullman 的 Compilers—Principles, Techniques, and Tools (Addison-Wesley, 1986) 
的 第 3 章 ， 通 第 说 的 “恐龙 书 ， 因 为 它 的 封面 。 更 确切 地 说 ， 这 是 一 条 红 龙 ， 绿 
龙 ” 指 的 是 它 的 衣 任 ，Aho fe Ullman 的 Principles of Compiler Design. 





小 结 : NFA 与 DFA 的 比较 


Summary:NFA and DFA in Comparison 

NFA 与 DFA 各 有 利 浆 。 

DFA 与 NFA: 在 预 编 诺 阶段 (pre-use compile) 的 区 别 

在 使 用 正则 表达 陈 搜索 之 前 ， 两 种 引擎 都 会 编 详 表达 式 ， 得 到 一 矢 
内 化 形式 ， 适 应 各 自 的 匹配 算法 。NFA 的 编译 过 程 通 常 要 快 一 些 ， 需 要 
的 内 存 也 更 少 一 些 。 传 统 型 NFA 和 POSIX NFA 之 间 并 没有 实质 的 差别 。 

DFA 与 NFA: 匹配 速度 的 差别 

对 于 “正名 ?情况 下 的 徐 单 文本 匹配 测试 ， 两 种 引擎 的 速度 兰 不 多 。 
一 般 来 说 ，DFA 的 速度 与 正则 表达 式 无 关 ， 而 NFA 中 两 者 直接 相关 。 


传统 的 NFA 在 报告 无 法 逻 配 以 前 ， 必 须 尝 试 正则 表达 式 的 所 有 变 
体 。 这 就 是 为 什么 我 要 用 整 章 (第 6 章 ) 来 论述 提高 NFA 表 达 式 匹配 速 
上 度 的 扩 巧 。 我 们 将 会 看 到 ， 有 时 候 一 个 NFA 永 远 无 法 结束 上 匹配。 传统 型 
NEFA 如 果 能 找到 一 个 匹配 ， 肯 和 定 会 停止 匹配 。 

相反 ，POSIX NFA IEW ZAC PTA eA, HR TR 
的 匹配 文本 ， 所 以 如 果 匹 配 失 败 ， 它 所 花 的 时 间 与 传统 型 NFA 一 样 (有 
可 能 很 长 ) 。 因 此 ， 对 POSIX NFA 来 说 ， 表 达 式 的 效率 问题 更 为 重要 。 

在 菜 种 意义 上 ， 我 说 得 绝对 了 一 点 ， 因 为 优化 措施 通 篆 能 够 减少 获 
得 匹配 结果 的 时 间 。 我 们 已 经 看 到 ， 优 化 引擎 不 会 在 字符 串 开 头 之 外 的 
任何 地 方 答 试 市 和 销 点 的 表达 式 ， 我 们 会 在 第 6 草 看 到 更 多 的 优化 措 
施 。 

DEFA 不 需要 做 太 多 的 优化 ， 因 为 它 的 匹配 速度 很 快 ， 不 过 最 重要 的 
是 ，DFA 在 预 编 译 阶段 所 作 的 工作 提供 的 优化 效果 ， 要 好 于 大 多 数 NFA 
引擎 复杂 的 优化 指 施 。 

现代 DFA 引 擎 经 常会 笑 试 在 匹配 需要 时 再 进行 预 编 详 ， 减 少 所 需 的 
时 间 和 内 存 。 因 为 应 用 的 文本 各 内， 通 第 情况 下 大 部 分 的 预 编 详 都 是 日 
颖 工夫 。 因 此 ， 如 果 在 匹配 过 程 确 实 需要 的 情况 下 再 进行 编译 ， 有 时 候 
能 节省 相当 的 时 间 和 内 存 〈( 拷 术 术 语 就 是 “ 延 人 壕 求 值 azy 
evaluation) ”) 。 这 样 ， 正 则 表达 式 、 待 匹配 的 文本 和 匹配 速度 之 间 残 
建立 了 茶 种 联系 。 

DFA 与 NFA: [Lac ROS 

DFA (或 者 POSIX NFA) 返回 最 左边 的 最 长 的 匹配 文本 。 传 统 型 
NEFA 可 能 返回 同样 的 结果 ， 当 然 也 可 能 是 别 的 文本 。 针 对 某 一 型 具体 的 
引 苟 ， 同 样 的 正则 表达 式 ， 同 样 的 文本 ， 总 是 得 到 同样 的 结果 ， 在 这 个 
意义 上 来 说 ， 它 不 是 “随机 ”的 ， 但 是 其 他 NFA3 引 苟 可 能 返回 不 一 样 的 结 
果 。 事 实 上 ， 我 见 过 的 所 有 传统 型 NFA 返 回 的 结果 都 是 一 样 的 ， 但 并 没 
有 任何 标准 来 人 硬性 规定 。 

DFA 与 NFA: 能 力 的 差异 

NFA 引 擎 能 提供 一 些 DFA 不 支持 的 功能 ， 例 如 : 

e 捕 获 由 括号 内 的 子 表 达 式 匹配 的 文本 。 相 天 的 功能 是 反 回 引用 和 
后 匹配 信息 (aftermatch information) ， 它 们 描述 匹配 的 文本 中 每 个 括 
写 内 的 子 表 达 式 所 匹配 文本 的 位 置 。 

e 环 和 钢 ， 以 及 其 他 复杂 的 零 长 上 度 确 认 “〈 注 8) (5133) 。 

e 非 匹配 优先 的 量词 ， 以 及 有 序 的 多 选 结构 。DFA 很 容易 天 能 文 持 
选择 最 短 的 匹配 文本 《尽管 因为 某 些 原因 ， 这 个 选项 似乎 从 未 同 用 户 提 
供 过 ) ， 但 是 它 无 法 实现 我 们 讨论 过 的 局 部 的 忽略 优先 性 和 有 序 的 多 选 


结构 。 
e 占有 优先 量词 (142) 和 固化 分 组 (139) 。 


AR DFA 的 速度 和 NFA 的 功能 ， 正则 表达 式 的 终极 境界 


我 已 经 多 次 说 过 ,DFA 不 能 支持 捕获 括号 和 反 向 引用 。 这 无 疑 是 对 的 ,但 这 并 不 是 说 ， 
我 们 不 能 组 合 不 同 的 技术 ， 以 达到 正则 表达 式 的 终极 境界 。180 页 的 补充 内 容 描 述 了 
NFA 为 了 追求 更 强大 的 功能 , 如 何 脱离 了 纯 理 论 的 道路 和 限制 , DFA 的 情况 也 是 如 此 。 
HAW HRA, DFA 进行 这 种 突破 更 加 困难 ， 但 并 非 不 可 能 。 


GNU grep 采取 了 一 种 简单 但 有 效 的 策略 。 它 尽 可 能 多 地 使 用 DFA,， 在 需要 反 向 引用 的 
时 候 ， 才 切换 到 NFA。GNU awk 的 办 法 也 差不多 一 一 在 进行 “是否 匹配 的 检查 时 ， 


WRA GNU grep 的 DFA 引擎 ， 如 果 需 要 知道 具体 的 匹配 文本 的 内 容 ， 就 采用 不 同 的 
引擎 、 这 里 的 “不 同 的 引 党 ”就 是 NFA， 利用 自己 的 gensub 函数 ，GNU awk 能 够 很 
万 便 地 提供 捕获 括号 。 

Tel 的 正则 引擎 由 Henry Spencer (你 或 许 记得 ， 这 个 人 在 正则 表达 式 的 早期 发 展 和 流 
行 中 扮演 了 重要 的 角色 ) 开发 ， 它 也 是 混合 型 的 。Tcl 引擎 有 时 候 像 NFA 一 一 它 支持 
环视 、 桶 获 括 号 、 肥 向 引用 和 忽略 优先 量词 。 但 是 ， 它 也 确实 能 提供 POSIX 的 最 左 最 
长 匹配 (177)， 但 没有 我 们 将 在 第 6 章 看 到 的 NFA 的 问题 。 这 点 确实 很 棒 。 





DFA 与 NFA: SCHEMES HY Ae oe 

尽管 存在 限制 ， 但 简单 的 DFA 和 NFA 引 擎 都 很 容易 理解 和 实现 。 对 
效率 〈 包 括 时 间 和 空间 效率 ) 和 增强 性 能 的 退 求 ， 令 实现 越 来 越 复杂 。 

用 代码 长 度 来 衡量 的 话 ， 支 持 NFA 正 则 表达 式 的 ed Version 7 (1979 
年 1 月 发 布 ) 只 有 不 到 350 行 的 C 代 码 〈 所 以 ， 整 个 grep 只 有 区 区 478 行 代 
45) 。Henry Spencer1986 年 免费 提供 的 Version 8 正则 程序 差不多 有 1 900 
行 C 代 码 ，1992 年 Tom Lord 的 POSIX NFA package rx (GNU sed 和 其 
他 工具 采用 ) 长 达 9 700 行 。 

WS RG DEAAINFAN Ti, GNU egrep Version 2.4.2 使 用 了 两 个 
功能 完整 的 引擎 〈 才 不 多 8 900 行 代码 ) ，Tal 的 DFA/NFA 混 合 引 擎 (请 
看 上 一 页 的 补充 内 容 ) 更 是 长 达 9 500 行 。 

某 些 实现 很 简单 ， 但 这 并 不 是 说 它们 支持 的 功能 有 限 。 我 曾经 想 要 
用 Pascal 的 正则 表达 式 来 处 理 某 些 文 本 。 从 毕业 以 后 我 就 没 用 过 Pascal 


了 ， 但 是 写 个 简单 的 NFA 引 人 擎 并 不 需要 太 多 工夫 。 它 并 不 奶 求 化 哨 ， 也 
不 退 求 速度 ， 但 是 提供 了 相对 全 面 的 功能 ， 非 和 营 实 用 。 
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Summary 

RDE — mR L TAS EIN AA, OOM ES. E 
少 ， 这 些 东 西 不 那么 容易 理解 。 我 花 了 些 时 间 才 理解 它 ， 花 了 更 长 的 时 
间 才 真正 弄 懂 。 我 希望 这 章 简要 的 讲解 能 够 降低 读者 理解 的 难度 。 我 尝 
试 过 伪 单 地 解释 ， 同 时 不 要 调 入 太 人 简单 的 陷阱 《不 笠 的 是 ， 太 过 直 白 的 
解释 总 是 妨碍 了 真正 的 理解 ) 。 本 章 有 许多 这 样 的 陷阱 ， 所 以 我 在 其 中 
人 的 引用 ， 在 下 面 的 摘要 中 ， 读 者 可 以 很 快 地 找到 其 

ae 

SEEM TE MW eA SUE BC S| AR AM E IRER, ESTA SE 
的 NFA” 037153) , B-P æ CAE SINDFA” (27155) 。 它 们 的 全 
称 见 第 156 页 。 

这 两 种 技术 ， 结 合 POSIX 标 准 ， 可 以 按照 实用 标准 划分 3 种 正则 引 
EP 

e 传 统 型 NFA 汽 油 驱 动 ， 功 能 强大 ) o 

ePOSIX NFA 汽油 驱动 ， 和 从 合 标 准 〉。 

eDFA (不 一 定 符合 POSIX) (电力 驱动 ， 运 转 稳 定 )。 

为 了 对 手头 的 工具 有 个 大 致 的 了 解 ， 你 需要 知道 它 采 用 的 是 什么 引 
擎 ， 以 对 正则 表达 式 做 相应 的 调 校 。 最 常见 的 引擎 就 是 传统 型 NFA， 其 
次 是 DFA。 表 4-1 0145) 列 出 了 大 干 党 用 工具 及 它们 使 用 的 引擎 类 
型 ，“ 测 试 引 警 的 类 型 ”( 字 146) 给 出 了 测试 引擎 类 型 的 方法 。 

对 于 任何 引擎 来 说 ， 都 有 一 条 通用 的 规则 : 开始 位 置 靠 先 的 匹配 文 
本 优先 于 开始 位 置 靠 后 的 匹配 文本 。 因 为 “传动 机 构 ” 会 从 前 往 后 在 文本 
的 各 个 位 置 展开 尝试 C148) 。 

对 于 从 某 个 位 置 开 始 的 匹配 : 

文本 主导 的 DEFA 引 擎 : 

寻找 可 能 的 最 长 的 匹配 文本 。 不 再 介绍 (5177) 。 稳 定 、 速 度 快 
(179) ， 讲 解 起 来 很 腑 烦 。 

表达 式 主导 的 NFA3 引 | 苟 : 

匹配 过 程 中 可 能 需要 “反复 竹 试 (work through) ”. NFAL HIR 
oe (lw Cer 157, 162) 。 控 制 匹 配 过 程 的 元 字符 : 标准 量词 〈 星 号 等 
等 ) 是 匹配 优先 的 〈 棕 151) ， 其 他 量词 是 忽略 优先 或 者 占有 优先 的 
(169) 。 在 传统 型 NFA 中 ， 多 选 结 构 是 有 序 排列 的 ( 寺 174) ， 在 


POSIX NFA 中 是 匹配 优先 的 。 

POSIX NFA 必须 找到 最 长 的 匹配 文本 。 人 但是， 匹配 并 不 难 理解 ， 
只 须 考 虑 效率 〈 第 6 章 的 问题 ) 。 

传统 型 NFA 控制 能 力 最 强 的 正则 引擎 ， 因 此 使 用 者 可 以 使 用 该 引 
擎 的 表达 式 主 导 性 质 来 精确 控制 匹配 过 程 。 

理解 本 章 的 概念 和 练习 是 书写 正确 而 高 效 的 正则 表达 式 的 基础 ， 这 
也 是 接 下 来 两 章 的 主题 。 


ASF EMRAH 


Practical Regex Techniques 

现在 我 们 已 经 掌握 了 编号 正则 表达 去 所 需 的 基本 知识 ， 我 布 望 在 更 
复杂 的 环境 中 应 用 这 些 知识 来 处 理 更 复杂 的 问题 。 每 个 正则 表达 式 都 必 
须 在 下 面 两 个 方面 求 得 平衡 : 准确 匹配 期 望 死 配 的 内 容 ， 忽 略 不 期 望 匹 
配 的 字符。 我 们 已 经 看 过 许多 例子 都 说 明 ， 如 果 应 用 得 当 ，[ 匹 配 优先 非 
Ge EEEE SPP pero 
NY o 

NFA 引擎 还 需要 平衡 另外 一 个 因 叉 : 效率 ， 这 也 是 下 一 章 的 主 
题 。 放 计 粳 糙 的 正则 表达 陈 一 一 即使 可 以 认为 没 犯 铬 误 一 一 也 足以 让 引 
SEWED o 

AS Fe AY Ee ER PSE, RA Se EY PRA 
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这 些 实例 。 

例如 ， 即 使 你 的 工作 不 涉及 HTML， 我 仍 推荐 你 从 处 理 HTML 的 实 
例 中 吸取 知识 。 原 因 在 于 ， 编 写 巧 妙 的 正则 表达 式 不 仅仅 是 一 种 手艺 
(skill) 而 且 还 是 一 种 艺术 Cart) 。 它 的 教授 和 学 习 ， 不 是 依靠 罗 
列 规则 ， 而 征 依靠 绎 验 ， 所 以 ， 我 用 这 些 例子 各 诉 谈 者 ， 目 己 在 过 去 的 
右 干 年 从 经 验 中 获得 的 深刻 司 示 。 

当然 ， 读 者 仍然 需要 上 自己 掌握 这 些 知 识 ， 但 是 研究 本 章 的 例子 是 个 
好 的 起 点 。 





下 则 表达 式 的 平衡 法 则 


Regex Balancing Act 

好 的 正则 表达 式 必 须 在 这 些 方面 求 得 平衡 : 

e 只 L 配 期 望 的 文本 ， 排 除 不 期 户 的 文本 。 

e 必 须 另 村 控制 和 理解 。 

e 如 条 使 用 NFA 引 擎 ， 必 须 保 证 效率 〈 如 朱 能 够 匹配 ， 必 须 很 快 地 
如 来 不 能 匹配 ， 应 访 在 尽 可 能 短 的 时 间 内 报告 匹配 撩 
W à 

这 些 方面 名 各 是 与 共 体 文本 相关 的 。 如 琳 我 只 使 用 命令 行 ， 只 需要 
快速 地 grep 作 些 东 西 ， 可 能 不 会 过 分 关心 逻 配 的 准确 性 ， 通 第 也 不 会 化 
太 多 精力 来 调 校 。 我 不 在 乎 多 花 点 时 间 来 手工 排查 ， 因 为 我 能 够 迅速 地 
在 输出 中 找到 自己 需要 的 内 容 。 但 是 ， 如 果 处 理 重 要 的 程序 ， 就 需要 花 
SON TAL AH JOR RUE IE OTE: 如 条 需 要， 正则 表达 去 也 可 能 很 复杂 。 这 些 
A|R AR ris BLA A . 

即使 使 用 同样 的 程序 ， 效 京 也 是 与 具体 文本 相关 的 。 如 来 是 
NFA, HĦ'^- (display|lgeometry|cemap|...|lquick24lrandomlraw) $ 之 类 长 
长 的 正则 表达 式 来 检验 命令 行 参数 的 效率 束 很 低 ， 因 为 多 选 分 文 过 多 ， 
但 如 条 它 只 用 于 检验 命令 行 参数 〈 可 能 只 和 古 在 程序 开始 的 时 候 运 行 右 干 
次 ) ， 即 使 所 需 时 间 比 正常 的 长 100 倍 也 不 要 紧 ， 因 为 这 时 候 效 率 并 不 
在 问题 。 但 是， 如 末 要 逐 行 检查 很 大 的 文件 ， 低 效率 的 程序 运行 起 来 会 
让 你 痛 吉 不堪。 


右 干 简单 的 例子 
A Few Short Examples 
匹配 连续 行 〈《 续 前 ) 


Continuing with Continuation Lines 
继续 前 一 章 中 匹配 连续 行 的 例子 (二 178) ， 我 们 发 现 《〈 在 传统 型 
NFA 中 使 用 w+=. 大 (Wn. 汪 ) x 并 不 能 匹配 下 面 的 两 行文 本 : 


SRC=array.c builtin.c eval.c field.c gawkmisc.c i0.c main.c\ 
missing.c msg.c node.c re.c version.c 


问题 在 于 ， 第 一 个 .x ELEARAZI wore (OMY) 
束 不 能 按照 预期 由 配 反 斜 线 了 。 所 以 ， 本 章 出 现 的 第 一 条 经 验 就 是 : 如 
果 不 需 要 点 写 凡 配 反 和 斜 线 ， 束 应 该 在 正则 表达 式 中 做 这 样 的 规定 。 我 们 
可 以 把 每 个 点 号 人 玲 换 成 '[\n\]，〈 请 注意 ，n 包 含 在 排除 性 字符 组 中 。 你 
应 该 记得 ， 原 来 的 正则 表达 式 的 假设 之 一 束 是 ， 点 号 不 会 匹配 换行 从 ， 
我 们 也 不 希望 它 的 蔡 代 品 能 够 匹配 换行 符 酸 119 页 ) 。 

于 是 ， 我 们 得 到 : 

\wt=[*\n\\]* (\\An[4\n\\]*) * 


它 确 实 能 够 匹配 连续 行 ， 但 因此 也 产生 了 一 个 新 的 问题 : ORE RY 
线 就 不 能 出 现在 一 行 的 非 结 尾 位 置 。 如 果 需 要 匹配 的 文本 中 包含 其 他 的 
反 斜 线 ， 这 个 正则 表达 式 束 会 出 问题 。 现 在 我 们 假设 它 会 包含 ， 所 以 需 
要 继续 改进 正则 表达 式 。 

迄今 为 止 ， 我 们 的 思路 都 是 ，“ 匹 配 一 行 ， 如 果 还 有 连续 行 ， 就 继 
续 匹 配 ”?。 现 在 换 另 一 种 思路 ， 这 种 思路 我 觉得 通常 都 会 奏效 : 集中 关 
注 在 特定 时 刻 真 正 容许 匹配 的 字符 。 在 匹配 一 行文 本 时 ， 我 们 期 望 匹 配 
的 要 么 是 普通 〔( 除 反 和 斜 线 和 换行 符 之 外 ) 字符 ， 要 么 是 反 斜 线 与 其 他 任 
何 字符 的 结合 体 。 在 点 号 通 配 模式 中 ，A 作 ,能 匹配 反 矢 线 加 换行 符 的 结 
合体 。 

所 以 ， 正 则 表达 式 就 变 成 了 'Aw+= (Anno 大 ， 在 点 号 通 配 模 
式 下 。 因 为 开头 是 人 ， 如 果 需 要 ， 可 能 得 使 用 增强 的 文本 行销 点 匹配 
模式 (3112) 。 


但 是 ， 这 个 答 宁 仍然 不 够 完美 一 一 我 们 会 在 下 一 半 讲 解 效 康 问 题 时 
AKA BIE on 
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Matching an IP Address 

来 看 个 复杂 点 的 例子 ， 匹 配 一 个 IP (Internet Protocol, I3 P Eh 
W) 地 址 : 用 点 号 分 开 的 四 个 数 ， 例 如 1.2.3.4。 通 第 情况 下 ， 每 个 数 都 
有 三 位 ， 例 如 001.002.003.004。 你 可 能 会 想到 用 [0-9] * \.[0-9] * \.[0- eh * 
\.[0-9] * | 从 文本 中 提取 一 个 也 地 址 ， 但 是 这 个 表达 式 显 然 不 够 精致 ， 


甚至 会 匹配 and then wy? Ee 这 个 表达 式 其 全 
个 需要 区 本 任何 数字 一 它 只 需要 二 写 〈 当 然 也 可 能 包括 其 间 的 数 
字 ) 。 


为 解决 这 个 问题 ， 我 们 首先 把 星 号 改 成 加 号， 因为 我 们 知道 ， 每 一 
段 必须 有 有 全 少 一 位 数字 。 为 确保 整个 字符 串 的 内 容 束 古 一 个 IP 地 址 ， 我 
们 可 以 在 首尾 加 上 人 ^...$ ， 于 是 我 们 得 到 : 

| ^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$ 

如 果 用 \d 蔡 换 [0-9] ， 就 得 到 A\dH\\d+\\d+\\d+$ ， 这 样 可 能 更 好 
看 一 些 〈 注 1) ， 但 是 ， 这 个 表达 式 仍然 会 捕获 一 些 并 非 I1P 地 址 的 数 
据 ， 例 如 '1234.5678.9101112.131415” (IP 地 址 的 每 个 字段 都 在 0-255 以 
内 ) 。 那 么 ， 你 可 以 强行 规定 每 个 字段 必须 包 合 三 位 数字 ， 职 是 
AddxdAdxdd\AdddAddd$ ， 但 这 样 未 免 太 不 灵活 (too specific) 
了 。 即 使 某 个 字段 只 有 一 位 或 者 两 位 数字 (例如 1.234.5.67) ， 也 应 该 
多 配 。 如 果 流 派 支 持 区 间 量 词 {min，max}， 束 可 以 这 么 写 '\d{1， 
3}\\d{1, 3}\\d{1, 3}\\d{1, 3}$,. MRA SHE, Wa \d\d? \d? 
或 者 \d Add? ) ? ,，。 这 两 种 方式 略 有 不 同 ， 但 都 能 匹配 一 到 三 个 数 
Fs 

现在 ， 正 则 表达 式 中 的 匹配 精度 可 能 已 经 满足 需求 了 。 如 果 要 更 精 
确 ， 就 必须 考虑 到 ， [\d{1, 3} 能 够 匹配 999， 而 它 超过 了 255， 所 以 它 
不 是 一 个 合法 的 IP 地 址 。 

我 们 有 好 儿 种 办 法 来 此 配 0 和 255 之 间 的 数字 。 最 容 的 办 法 就 是 
0|1|2|3|...253|254|255, 。 不 过 这 又 不 能 处 理 以 0 开头 的 数字 ， 所 以 必须 与 
成 '0|00|000|1|01|001... ， 这 样 一 来 ， ERZE 大 式 就 长 得 过 分 了 。 对 于 
DFA 引 擎 来 说 ， 问 题 还 只 是 它 太 长 太 繁 AK (E PLEITE E -5 He SP 
EURAN EN. EX FNFAS E, KW Bio) ai BE OK 





杀手 。 

实际 的 解决 办 法 是 ， 天 注 字 段 中 什么 位 置 可 以 出 现 哪些 数字 。 如 果 
一 个 字段 只 包含 一 个 或 者 两 个 数字 ， 吏 无需 担 心 这 个 字段 的 值 是 个 合 
法 ， 所 以 AdNdd 就 能 应 付 。 也 不 比 担 心 那些 以 0 或 者 1 开头 的 三 位 数 ， 
为 000-199 都 是 合法 的 耳 地 址 。 所 以 我 们 加 上 '[01MNd\d ， 得 到 \d|\d\d| 
[Ol]\d\d 。 你 可 能 和 党 得 这 有 点 像 第 1 重 里 匹配 时 间 的 例子 〈 到 28) ， 和 前 
一 章 中 匹配 日 期 的 例子 (二 177) 。 

继续 看 这 个 正则 表达 式 ， 以 2 开头 的 三 位 数字 ， 如 采 小 于 255 就 是 
合法 的 ， 所 以 第 二 位 数字 小 于 5 束 代 表 整 个 数 也 是 合法 的 。 如 果 第 二 位 
数字 是 5， 第 三 位 数字 束 必 须 小 于 6。 这 可 以 表示 为 '2[0-4M\d|25[0-5] 。 

现在 这 个 正则 表达 式 有 点 看 不 全 了 ， 但 分 析 之 后 还 是 能 够 理解 其 中 
包含 的 思路 。 结 果 就 是 dNd\dj[01N\d\d|2[0-41\d|25[0-5] 。 其 实 我 们 可 以 
合并 前 面 三 个 多 选 分 支 ， 得 到 (01) 2\d\d212 [0-4] \d 125 [0-5] 二 
NFA 中 ， 这 样 做 的 效 京 更 高 ， 因 为 任何 多 选 分 文思 配 失 败 都 会 导 仅 回 
洲 。 请 注意 ， 第 一 个 多 选 分 文中 用 的 是 \d\d? ， 而 不 是 \d? \d ， 这 
样 ， 如 果 根 本 不 存在 数字 ，NFA 会 更 快 地 报告 匹配 失败 。 我 把 这 个 问 
题 的 分 析 留 给 该 者 一 一 通过 一 个 简单 的 验证 束 能 发 现 二 者 的 区 别 。 我 们 
ra 是 高 这 个 表达 式 的 效率 ， 不 过 这 要 留待 下 一 章 讨 
WJ o 

现在 这 个 表达 式 能 够 匹配 0 到 255 之 间 的 数 ， 我 们 用 括号 把 它 包 起 
来 ， 用 来 取代 之 前 表达 式 中 的 \d{t1，3} WE: 

[人 ([01]?\d\d?|2[0-4M\dI25[0-5])\.([01]?\d\d?|2[0-4N\dI25[0-5]N\.([01]? 
\d\d?|2[0-4]\d|25[0-5])\.((01]?\d\d?|2[0-4]\d|25[0-5])$. 

这 可 真 叫 复杂 ! FELIZ WRITS? 这 得 根据 具体 需求 来 决定 。 这 个 
表达 式 只 会 匹配 合法 的 下 地 址 ， 但 是 它 也 会 匹配 一 些 语意 不 正确 的 卫 地 
址 ， 例 如 0.0.0.0《〈 所 有 字段 都 为 零 的 了 地 址 是 非法 的 ) 。 使 用 环视 功能 
(133) 可 以 在 和 后 添加 '(? ! 0A.0+.0+\.0+$) ， 但 是 某 些 时 候 ， 
处 理 各 种 极端 情形 会 降低 成 本 /收益 的 比例 。 某 些 情况 下 ， 更 合适 的 做 
法 束 是 不 依赖 正则 表达 式 完成 全 部 工作 。 例 如 ， 你 可 以 只 使 用 '\d{1， 
3}\\d{1, 3}\\d{1, 3}\\d{1, 33%, tS Sql S Peta, FERS 
变 成 程序 中 的 $1、$2、$3、$4， 这 样 就 可 以 用 其 他 程序 来 验证 了 。 

确定 应 用 场合 (context) 

这 个 正则 表达 式 必 须 借 助 锚 点 个 A'S 才能 正常 工作 ， 认 识 到 这 一 


, a A ip=72123.3.21.993 
点 很 重要 。 和 否则 ， 它 就 可 能 匹配 PEE a RE 








3 rns a E A Pe 
型 NFA， 则 可 能 匹配 ~， 


在 第 二 个 例子 中 ， 这 个 表达 式 甚 至 连 最 后 的 223 都 无 法 完整 匹配 。 
但 是 ， 问 题 并 不 在 于 表达 式 本 身 ， 因 为 没有 东西 〈 例 如 分 隔 符 ， 或 者 末 
尾 的 错 点 ) 强迫 它 匹 配 223。 最 后 那个 分 组 的 第 一 个 多 选 分 文 '[01]? 
\d\d? ， 匹 配 了 前 面 两 位 数字 ， 如 果 来 尾 没 有 '$ ，[ 匹 配 到 此 就 结 
了 。 在 前 一 章 日 期 匹配 的 例子 中 ， 我 们 可 以 安排 多 选 分 支 的 次 序 来 达到 
期 望 的 目的 。 现 在 我 们 也 把 能 把 匹配 三 位 数字 的 多 选 分 支 放 在 最 前 面 ， 
这 样 在 匹配 两 位 数 的 多 选 分 支 获 得 尝试 机 会 之 前 ， 任 何 三 位 数 都 能 完 
PLAC (DFA 和 POSIX NFA 当 然 不 需要 这 样 安 排 ， 因 为 它们 总 是 返回 最 长 
的 匹配 文本 ) 。 

无 论 是 否 重 新 排序 ， 第 一 个 错误 仍然 不 可 避免 。“ 啊 哈 ! ”， 你 可 能 
会 想 ,，“ 我 可 以 用 单词 分 界 符 锚 点 来 解决 这 个 问题 。” 不 幸 的 是 ， 这 也 不 
能 奏效 ， 因 为 这 样 的 正则 表达 式 仍然 能 够 匹配 二 一 >*°”。 为 了 避免 
匹配 这 样 内 藤 的 文本 ， 我 们 必须 确保 匹配 文本 两 侧 至 少 没 有 数字 或 者 点 
号 。 如 果 使 用 环视 ， 可 以 在 原来 表达 式 的 首尾 添加 O <! [\w.]) ... 
(0? ! lw.) ,来 保证 匹配 文本 之 前 (以 及 之 后 ) 不 出 现 Mw.] 能 匹配 的 
字符 。 如 果 不 支持 环视 ， 在 首尾 添加 "(A 和 |:)... CIS) 也 能 够 应 付 某 些 
情况 。 





处 理 文 件 名 


Working with Filenames 

处 理 文 件 名 和 路 径 ， 例 如 Unix 下 的 /usr/local/bin/Perl 或 者 Windows 
下 的 \Program Files\Yahoo! \Messenger， 很 适合 用 来 讲解 正则 表达 式 的 
应 用 。 因 为 “动手 (using) ” 比 “* 观 摩 (reading) ”更 有 意思 ， 我 会 同时 用 
Perl, PHP (preg 程 序 ) 、Java 和 VB.NET 来 讲解 。 如 果 你 对 其 中 的 某 些 
E EEE EEN R 
Jo 

Fe tH TE ATP SA EAE 

PS BF EE EF a I ERE, M G0 FE/usr/local/bin/gcc4e py 
gcc。 从 本 质 层 面 来 考虑 问题 是 成 功 的 一 半 。 在 本 例 中 ， 我 们 希望 去 挥 
在 最 后 的 斜 线 ( 含 ) 之 前 (在 Windows 中 是 反 和 斜 线 〉 的 任何 字符 。 如 果 
没有 笠 线 最 好 ， 因 为 什么 也 不 用 干 。 我 兽 说 过 ，' .类 | RA, 1E 
是 此 处 我 们 需要 匹配 优先 的 特性 。 .类 / 中 的 -类 可 以 匹配 一 整 行 ， 然 
后 回 退 《也 了 吏 是 回调 ) IRER R. KERLE. 


下 面 是 四 种 语言 的 代码 ， 去 反 变 量 f 中 的 文件 名 中 开头 的 路 径 。 对 
于 Unix 的 文件 名 : 











语 E 代 码 

Perl SE =~ s{*.*/}{); 

PHP Sf = preg _replace('{*.*/}', '', $f); 
“java.util.regex |£ = £.replaceFirst("*.*/",""); 
VENET TETAI 


正则 表达 式 (或 者 说 用 来 表示 正则 表达 式 的 字符 串 〉 以 下 面 线 标 
注 ， 正 则 表达 式 相 关 的 组 件 则 由 粗 体 标注 。 

下 面 是 处 理 Windows 文 件 名 的 代码 ，Windows 中 的 分 隔 符 是 反 和 斜 线 
而 不 是 斜 线 ， 所 以 要 用 正则 表达 式 人 .大 N 。 在 正则 表达 式 中 ， 我 们 需要 
在 反 和 僚 线 前 再 加 一 个 反 和 斜 线 ， 才 能 表示 转 义 的 反 和 斜 线 ， 不 过 ， 在 中 间 两 
段 程 序 中 添加 的 这 个 反 和 斜 线 本 身 也 需要 转 义 : 


语 E 代 a 

Per] o£ =~ 8/*.*\\//i 
PHP Sf = preg_replace('/*.*\\\/', if, Sty 
java.util. regex f = f.replaceFirst("*.*\\\\",""); 
VB.NET f = Regex.Replace(f, "*.*\\",""); 


MBA Fe th ee SIN, DOE Java t RARR CS 
101) . 

有 一 点 请 务必 记 住 : 别 忘 了 时 常 想 想 匹 配 失 败 的 情形 。 在 本 例 中 ， 
匹配 失败 意味 着 字符 串 中 没有 斜 线 ， 所 以 不 会 奉 换 ， 字 符 串 也 不 会 变 
化 ， 而 这 正 是 我 们 需要 的 。 

为 了 保证 效率 ， 我 们 需要 记 住 NFEA 引 擎 的 工作 原理 。 设 想 下 面 这 种 
情况 : 我 们 和 态 记 在 正则 表达 式 的 开头 添加 个 符号 (这 个 和 从 号 很 容易 后 
w) ， 用 来 匹配 一 个 恰好 没有 和 斜 线 的 字符 串 。 同 样 ， 正 则 引擎 会 在 字符 
FB 的 起 始 位 置 开 始 搜索 。'. 类 抵达 字符 串 的 末尾 ， 但 必须 不 断 回 退 ， 
以 找到 斜 线 或 者 反 和 斜 线 。 直 到 最 后 它 交 还 了 匹配 的 所 有 字符 ， 仍 然 无 法 
匹配 。 上 所以， 正则 引擎 知道 ， 在 字符 串 的 起 始 位 置 不 存在 匹配 ， 但 这 远 
远 没 有 结束 。 


接 下 来 传动 装置 开始 工作 ， 从 在 目标 字符 串 的 第 2 个 字符 开始 ， 依 
URS AVA SIEM eA. BEL, EES BAP OM 
理论 上 说 ) 进行 扫 拉 -回调 。 文 件 名 通 稼 很 短 ， 因 此 这 不 是 一 个 问题 ， 
但 原理 确实 如 此 。 如 果 字 符 串 很 长 ， 吏 可 能 存在 大 量 的 回溯 〈 当 然 ， 
DEFA 不 存在 这 个 问题 ) 。 

在 实践 中 ， 经 过 合理 优化 的 传动 装置 能 够 认识 到 ， 对 几乎 所 有 以 .. 
x 开头 的 正则 表达 式 来 说 ， 如 有 果 在 茶 个 字符 串 的 起 始 位 置 不 能 匹配 ， 

也 就 不 能 在 其 他 任何 位 置 多 配 ， 所 以 它 只 会 在 字 从 串 的 起 始 位 置 (号 
246) 和 洋 斌 一次。 不过， 在 正则 表达 式 中 写 明 这 一 点 更 加 明和 六 ， 在 例子 
中 我 们 正 是 这 样 做 的 。 

从 路 径 中 获取 文件 名 

男 一 种 办 法 是 忽略 路 径 ， 们 单 地 匹配 最 后 的 文件 名 部 分 。 最 终 的 文 
件 名 就 是 从 最 后 一 个 冬 线 开始 的 所 有 内 容 : MS 。 这 一 次 ， 销 点 不 
仪 仪 是 一 种 优化 措施 ， 我 们 确实 需要 在 结尾 设置 一 个 销 点 。 现 在 我 们 可 
以 这 样 做 ， 以 Perl 来 说 明 : 

SWholePath =~ m{([*/]*)$}; # Fil FER) Aik AM] SwholePath 
SFilename = $1; # 记录 匹配 内 容 

你 也 许 注 意 到 了 ， 这 里 并 没有 检查 这 个 正则 表达 式 能 否 风 配 ， 因 为 
它 总 是 能 下 配 。 这 个 表达 式 的 唯一 要 求 束 是 ， 字 和 人 符 串 有 $ 能 够 由 配 的 结 
束 位 置 ， 而 即使 是 空 字符 串 也 有 一 个 结束 位 置 。 因 此 ， 我 用 $1 来 引用 括 
写 内 的 表达 式 匹 配 的 文本 ， 因 为 它 必 定 包 括 某 些 字 符 《〈 如 果 文 件 名 以 斜 
线 结尾 ， 结 果 束 是 空 字符 )。 

这 里 还 需要 考虑 到 效率 : 在 NFA 中 ，'[ 和 类 $9 的 效率 很 低 。 仔 细 想 
想 NFA 引 擎 的 匹配 过 程 ， 你 会 明 白 它 包 括 了 太 多 的 回调 。 即 使 是 短 短 
的 “usrvlocalbin/perP ， 在 获得 匹配 结果 之 前 ， 也 要 进行 四 十 多 次 回 训 。 
PEA OS 开始 的 尝试 。 [wx 一 直 匹 配 到 第 二 个 1， 之 后 匹配 
失败 ， 然 后 对 1]、a\、c、o、] 的 存储 状态 依次 答 试 '$ 《都 无 法 匹配 ) 。 


如 果 这 还 不 够 ， 又 会 从 ”2ca 7/ … 开 始 重复 这 个 过 程 ， 接 着 从 


local 开始， 不断 重 复 。 

这 个 例子 不 应 该 消耗 我 们 太 多 的 精力 ， 因 为 文件 名 一 般 都 很 短 (40 
次 回溯 几乎 可 以 忽略 不 计 一 4 “000 万 次 回溯 才 真 正 要紧 ) 。 再 一 次 ， 
重要 的 是 理解 问题 本 身 ， 这 样 才能 选择 合适 的 通用 规则 来 解决 具体 的 问 
题 。 


需要 指出 的 是 ， 纵 然 本 书 是 天 于 正则 表达 式 的 ， 但 正则 表达 式 也 不 


总 是 最 优 解 。 例 如 ， 大 多 数 程序 说 计 语 言 都 提供 了 处 理 文 件 名 的 非 正 则 
表达 式 函 数 。 不 过 为 了 讲解 正则 表达 式 ， 我 仍 会 继续 下 去 。 

所 在 路 径 和 文件 名 

下 一 步 是 把 完整 的 路 径 分 为 所 在 路 径 和 文件 名 两 部 分 。 有 许多 办 法 
做 到 这 一 点 ， 这 取决 于 我 们 的 要 求 。 开 始 ， 你 可 能 想 要 用 从 CX) 
x) $ 的 $1 和 $2 来 提取 这 两 者 。 看 起 来 这 个 正则 表达 式 非 党 直观 ， 但 知 
道 了 死 配 优先 量词 的 工作 原理 之 后 ， 我 们 知道 第 一 个 -大 会 自 先 捕获 所 
有 的 文本 ， 而 不 给 /7 和 $2 留 下 任何 字符 。 第 一 个 .类 ,能 交还 字符 的 唯一 
BA, MEERLE Cx) $ 时 进行 的 回调 。 这 会 把 “交还 的 部 分 
留 给 后 面 的 .类 。 因 此 ，$1 瓯 是 文 件 所 在 的 路 径 ，$2 吏 是 文件 的 名 
Fo 

fet eA ze, RIMEL C) /来 确保 第 二 个 "(. 大) 
不 会 轧 配 任何 冬 线 。 理 解 匹 配 优 先 之 后 ， 我 们 知道 这 没 问 题 。 如 果 要 做 
的 更 精确 ， 可 以 使 用 '[ 和 类 来 捕捉 文件 名 。 于 是 我 们 得 到 个 (. 炎 )/ 
CIN] ) $ 。 这 个 表达 式 准确 地 表达 了 我 们 的 意图 ， 一 眼 就 能 看 明 
=e 

这 个 表达 式 有 个 问题 ， 它 要 求 字 符 串 中 必须 出 现 一 个 冬 线 ， 如 果 我 
们 用 它 来 匹配 们 e.txt， 因 为 无 法 匹配 ， 所 以 没有 结果 。 如 果 我 们 希望 精 
苛求 精 ， 可 以 这 样 : 
if (SWholePath = ~m!*(.*)/([*/]*)$!) { 
# 能 够 匹配 --S1 和 $2 都 合法 
SLeadingPath = $1; 
SFileName = $2; 


} else { 
# 无 法 匹配 ， 文 件 名 中 不 包含 / 
SLeadingPath = "."; # 岂 以 "file,.txt" 应 该 是 "./file.txt"” ("," 表 示 当 前 路 径 ) 


SFileName = $SWholePath; 
} 


匹配 对 称 的 括号 


Matching Balanced Sets of Parentheses 

APRESS. ATES ZR Ss VERGE RAE Fs RL. TEA E i S. 
文件 和 源 代码 时 ， 经 常 需要 匹配 对 称 的 括号 。 例 如 ， 解 析 C 语言 代码 时 
可 能 需要 处 理 某 个 函数 的 所 有 参数 。 函 数 的 参数 包含 在 函数 名 称 之 后 的 
括 写 里 ， 而 这 些 参数 本 映 义 有 可 能 包含 租 套 的 函数 调用 或 是 算式 中 的 括 


[ A 大 

号 。 我 们 先 不 考虑 嵌 套 的 括号 ， 你 或 许 会 想到 “fo CDSN, mx 
行 不 通 。 

秉承 C 的 光荣 传统 ， 我 把 示范 函数 命名 为 foo。 表 达 式 中 的 标记 部 
分 是 用 来 捕获 参数 的 。 对 于 必 由 和” (Somevats .站 > 类 的 
参数 ， 这 个 表达 式 完全 没 问题 。 但 是 ， 它 也 可 以 匹配 
meee See), RARE. MUAS [A) ] 
x 更 聪明 的 办 法 。 

为 了 匹配 括号 部 分 ， 我 们 可 以 尝试 下 面 的 这 些 正则 表达 式 ;: 

1\ CXV 插 号 及 括号 内 部 的 任何 字符 。 

2\([A) ]x\) 从 一 个 开 括号 到 最 近 的 闭 括号 。 

3\ CA O ]x\) 从 一 个 开 括 号 到 最 近 的 闭 括号 ， 但 是 不 容许 其 中 
包含 开 括号 。 

图 5-1 显 未 了 对 一 行 简单 代码 应 用 这 些 表达 式 的 结果 。 


需要 匹配 的 部 分 


val = foo(bar(this), 3.7) + 2 * (that - 1); 


Mv/ 
正则 表达 式 2 匹配 的 部 分 


正则 表达 式 1 匹 配 的 部 分 





图 5-1: 三 个 表达 式 的 匹配 位 置 

我 们 看 到 ， 第 一 个 正则 表达 式 匹 配 的 内 容 太 多 〈 注 2) ， 第 二 个 正 
则 表达 式 匹 配 的 内 容 太 少 ， 第 三 个 正则 表达 式 无 法 匹配 。 孤 立地 看 ， 第 
三 个 正则 表达 式 能 够 匹配 “(this) *，， 但 是 因为 表达 式 要 求 它 必须 紧 接 在 
foo 之 后 ， 所 以 无 法 匹配 。 所 以 ， 这 三 个 表达 式 都 不 合格 。 

真正 的 问题 在 于 ， 大 多 数 系 统 中 ， 正 则 表达 式 无 法 匹配 任意 深度 
的 藤 套 结构 。 在 很 长 的 时 间 内 ， 这 是 放 之 四 海 而 丝 准 的 规则 ， 但 是 现在 
Perl、.NET 和 PCRE/PHP 都 提供 了 解雇 的 办 法 《参见 第 328、436、475 
W) 。 但 是 ， 即 使 不 用 这 些 功 能 ， 我 们 也 可 以 用 正则 表达 式 来 由 配 特 定 


RERE S, (ANSE TERRE IN RETA S . MAARRE IE WU Ze 
AIVE: 

IAQ] * AAO] * YAOI * ) * \), 

这 样 类 推 下 去 ， 更 深层 次 的 藤 僚 束 复 淋 得 可 怕 。 但 是 ， 下 和 面 的 Perl 
程序 ， 在 指定 舱 僚 深 皮 $depth 之 后 ， 生 成 的 正则 表达 式 可 以 匹配 最 大 深 
REAS$depthhiike@ias. EEA A Perl “string x count 运算 符 ， 这 个 


一 fake Ar 


运算 符 会 把 string 重 复 count 次 : 


$regex=\ C C? : [A O JN Cx $depth.[4 O ]*'\) ) *'x 
$depth.'\) '; 这 个 表达 式 留 给 读者 分 析 。 
防备 不 期 望 的 匹配 


Watching Out for Unwanted Matches 

有 个 问题 很 容 匈 瑟 记 ， 即 ， 如 有 果 符 分 析 的 文本 不 符合 使 用 者 的 预 
期 ， 会 发 生 什 么 。 假 设 你 需要 编写 一 个 过 小 程序 ， 把 普通 文本 转换 为 
HTML， 你 希望 把 一 行 连 字 符 写 转换 为 ”HTML 中 代表 一 条 水 平 线 的 二 
HR > 。 如 果 使 用 搜索 -替换 命令 s/- 炎 /二 HR 二 /， 它 能 替换 期 望 蔡 换 的 文 
本 ， 但 只 限于 它们 在 行 开 头 的 情况 。 很 奇怪 吗 ? 事实 上 ，Ss/- 类 /<HR>/ 
会 把 到 HR> 添 加 到 每 一 行 的 开头 ， 而 无 论 这 些 行 是 否 以 连 字 符 开 头 。 

请 记 住 ， 如 果菜 个 元 系 的 思 配 没有 便 性 规定 任何 必须 出 现 的 字符 ， 
那么 它 总 能 匹配 成 功 。 -类 从 字符 串 的 起 始 位 置 开始 笑 试 罗 配 ， 它 会 四 
配 可 能 的 任何 连 字 符 。 人 但是， 如果 没有 连 字 符 ， 它 仍然 能 匹配 成 功 ， 这 
完全 符合 性 号 的 定义 。 

在 菜 位 我 非常 碍 重 的 作者 的 作品 中 出 现 过 类 似 的 例子 ， 他 用 这 个 例 
子 来 讲解 正则 表达 式 匹 配 一 个 数 ， 或 者 是 整数 或 者 是 浮 点 数 。 在 它 的 正 
则 表达 式 中 ， 这 个 数 可 能 以 负数 从 配 开 涉 ， 然 后 是 任意 多 个 数字 ， 人 然后 
是 可 能 的 小 数 点 ， 册 是 任何 多 的 数字 。 他 的 正则 表达 式 是 [-? [0-9] * 
\.? [0-9]* . 

人 确实， 这 个 正则 表达 式 可 以 匹配 1、-272.37、 
129238843.、.191919， 甚 至 是 -.0 这 样 的 数 。 这 样 看 来 ， 它 有 的 确 是 个 不 错 
的 正则 表达 式 。 

但 是 ， 你 想 过 这 个 表达 式 如 何 凡 
配 'this.has'no'number “nothing'here” 或 是 空 字符 串 吗 ? 仔细 看 看 这 个 正 
则 表达 式 每 一 个 部 分 都 不 是 匹配 必须 的 。 如 果 存 在 一 个 数 ， 如 果 正 
则 表达 陈 从 在 字符 串 的 起 始 位 置 开 始 ， 的 确 能 够 下 配 ， 但 是 因为 匹配 没 
有 任何 必须 元 素 。 此 正则 表达 式 可 以 匹配 每 个 例子 中 字符 串 开 头 的 空 字 





符 。 实 际 上 它 甚至 可 以 匹配 um.123: 开 头 的 空 字符 ， 因 为 这 个 空 字 符 
比 数字 出 现 得 更 早 。 

所 以 ， 把 真正 意图 表达 清楚 是 非常 重要 的 。 一 个 浮 点 数 必须 要 有 全 
少 一 位 数字 ， 人 否则 束 不 是 一 个 合法 的 值 。 我 们 首先 假设 ， 在 小 数 点 之 前 
至 少 有 一 位 数字 〈 之 后 我 们 会 去 揉 这 个 条 件 ) 。 如 果 是 ， 我 们 需要 用 加 
号 来 控制 这 些 数 字 -? [0-9]+, 。 

如 采 要 用 正则 表达 式 来 匹配 可 能 存在 的 小 数 点 《及 其 后 的 数字 ) ， 
束 必 须 认识 到 ， 小 数 部 分 必须 紧 接 在 小 数 点 之 后 。 如 末 我 们 简单 地 用 
\.? [0-9]* ， 那 么 无 论 小 数 点 是 售 存 在 ， | [0-9]x ,都 可 能 匹配 。 

解决 的 办 法 还 是 厘清 我 们 的 意图 : 小 数 点 《以 及 之 后 的 数字 ) 是 可 
能 出 现 的 : | C\.[0-9]*) ? 。 这 里 ， 问 号 限定 《也 可 以 叫 “统治 
governs” 或 者 “控制 controls”) 的 不 再 是 小 数 点 ， 而 是 小 数 点 和 后 面 的 小 
数 部 分 。 在 这 个 结合 体内 部 ， 小 数 点 是 必须 出 现 的 ， 如 有 条 没有 小 数 点 ， 
[0-9] * 根本 谈 不 上 匹配 。 

把 它们 结合 起 来 ， 就 得 到 '-? [0-9]+ C[0-9]*) ? ，。 这 个 表达 式 
不 能 匹配 ‘.007?， 因 为 它 要 求 整 数 部 分 必须 有 一 位 数字 。 如 果 我 们 作 些 
修改 ， 容 许 整 数 部 分 为 空 ， 束 必须 同时 修改 小 数 部 分 ， 人 否则 这 个 表达 式 
就 可 以 匹配 至 字符 〈 这 是 我 们 一 开始 束 准 备 解决 的 问题 ) 。 

解决 的 办 法 是 为 无 法 轿 盖 的 情况 添加 多 选 分 文 : 


~PO-9}+(\. (0-91)? | ?10-91$/。 这 样 就 能 匹配 以 小 数 点 开头 的 
小 数 〈 小 数 点 是 必须 的 ) 。 仔 细 看 看 ， 仔 细 看 看 。 你 注意 到 了 吗 ? 第 二 
个 多 选 分 支 同样 能 够 匹配 负数 符号 开头 的 小 数 ? 这 很 容易 忘记 。 当 然 ， 
你 也 可 以 把 -? ,提出 来 ， 放 到 所 有 多 选 结构 的 外 面 ，'-? 〈[0-9]+ OIO- 
9]*) ? \.[0-9]+)  。 

虽然 这 个 表达 式 比 最 开始 的 好 得 多 ， 但 它 仍然 会 匹配 
2003.04.12 、 


这 样 的 数字 。 要 想 真 正 匹 配 期 望 的 文本 ， 同 时 忽略 不 期 
望 的 文本 ， 求 得 平衡 ， 束 上 作 须 了 解 实 际 的 待 匹配 文本 。 我 们 用 来 提取 浮 
点 数 的 正则 表达 式 必 须 包 含 在 一 个 大 的 正则 表达 式 内 部 ， 例 如 用 信 ...$ 
或 者 |[num\s*=\s*...$ 。 


匹配 分 隔 符 之 内 的 文本 


Matching Delimited Text 
匹配 用 分 隔 符 〈 以 某 些 字 符 表 示 ) 之 类 的 文本 是 常见 的 任务 ， 之 前 





的 匹配 双 引 所 内 的 文本 和 了 下 地 址 只 是 这 类 问题 中 的 两 个 典型 例子 。 其 他 
的 例子 还 包括 : 

eo PLUS) «AUS? ZAI ANCA ER 

eJLAcC—TSHTML tag， 也 束 古 尖 括 号 之 内 的 文本 ， 例 如 CODE 
> 

ott XHTML tag 标 注 的 文本 ， 例 如 在 HIML 代 码 'a<I>super 
exciting</I>offer! ” P HJ ‘super exciting’ . 

eL. mailr LFR ATAR. AAA BE 1 ABI F A 
据 格 式 来 组 织 : 

alias 简称 电子 邮件 地 址 

例如 ‘alias jeff jfriedl@regex.info’ (在 这 里 ， 分 隔 符 是 每 个 部 分 之 间 
的 空 日 和 换行 从 )。 

e[ 儿 本 引文 字符 串 (quoted string) ， 但 是 容许 其 中 包含 转 义 的 引 
+5, WilUl‘a passport needs a of the holder’ . 


"2\"x3\" likeness" 

ef hTCSV (过 号 分 隔 值 ，comma-separated values) 文件 。 

恕 的 来 说 ， 处 理 这 些 任务 的 步骤 是 : 

1. 匹 配 起 始 分 隔 符 (opening delimiter) 。 

2. 史 配 正 文 (main text， 即 结束 分 隔 从 之 前 的 所 有 了 文本) 。 

3. 匹 配 结束 分 隅 符 。 

我 曾经 说 过 ， 如 采 结 束 分 隔 人 符 不 只 一 个 字符 ， 或 者 结束 分 隔 符 能 够 
出 现在 正文 中 ， 这 种 任务 驶 很 难 完 成 。 

VEG] SOAR RF BR A LS SCG] 

来 看 入 " x3\" 的 例子 ， 这 里 的 结束 分 隅 和 从 
能 包含 转 义 之 后 的 引号 。 逻 配 开 始 和 结束 分 隔 
匹配 正文 的 时 候 不 要 超越 结束 分 隅 人 符 。 

仔细 想 想 正文 里 能 够 出 现 的 字符 ， 我 们 知道 ， 如 果 一 个 字符 不 是 引 
F, Hate tia Rk Se RE A" ] 匹配 ， 那 么 它 肯 定 属于 正文 。 不 
Ww, WRASSE TSS, MER LATA, MART 
写 也 属于 正文 。 把 这 个 意思 表达 出 来 ， 使 用 环视 (号 133) 功能 来 处 
理 “ 如 末 之 前 有 肥 冬 线 ”的 情况 ， 束 得 到 和 " CA" C2 <=\) ")* 
l ， 这 个 表达 式 完 全 能 够 匹配 六" x3\"。 

不 过 ， 这 个 例子 也 能 用 来 说 明 ， 看 起 来 正确 的 正则 表达 式 如 何 会 匹 
配 意料 之 外 的 文本 ， 它 虽然 看 起 来 正确 ， 但 不 是 任何 情况 下 都 正确 。 我 
们 希望 它 逻 配 下 面 这 个 无 聊 的 例子 中 的 划 线 部 分 : 





是 一 个 引号 ， 但 正文 也 可 
符 很 容易 ， 诀 窃 就 在 于 ， 


Danti Gildels Ty=|]=% I or WS] 
i 


但 它 匹 配 的 是 : 


Darth Symbols wi-—|— 3 gr i] 


这 是 因为 ， 第 一 个 财 引号 之 前 的 确 存在 一 个 反 斜 线 。 但 这 个 反 和 斜 线 
本 身 是 被 转 义 的 ， 它 不 是 用 来 转 义 之 后 的 双 引 号 的 (也 就 是 说 这 个 引号 
其 实 是 表示 引用 文本 的 结束 〉。 而 逆序 环视 无 法 识别 这 个 被 转 义 的 反射 
线 ， 如 果 在 这 个 引号 之 前 有 任 童 多 个 履 ， 用 逆序 环视 只 会 把 事情 弄 得 
更 糟 。 原 来 的 表达 式 的 真正 问题 在 于 ， 如 果 反 和 斜 线 是 用 来 转 义 引号 的 ， 
在 我 们 第 一 次 处 理 它 时 ， 不 会 认为 它 是 表示 转 义 的 反 和 斜 线 。 所 以 ， 我 们 
得 用 别 的 办 法 来 解决 。 

仔细 想 想 我 们 想 要 匹配 的 位 于 开始 分 隔 符 和 结束 分 隔 符 之 间 的 文 
本 ， 我 们 知道 ， 其 中 可 以 包括 转 义 的 字符 (\. ) ， 也 可 以 包括 非 引 号 
的 任何 字符 ' 从 "] 。 于 是 我 们 得 到 " OAD x". DE, MEX 
个 问题 解决 了 。 不 于 的 是 ， 这 个 表达 式 还 有 问题 。 不 期 望 的 匹配 仍然 会 
上 肥 生 ， 比 如 对 这 个 文本 ， 它 应 该 是 无 法 匹配 的 ， 因 为 其 中 没有 结束 分 隅 
T 





"You need a Z2\"x3\" Photo 


为 什么 能 匹配 呢 ?” 回 忆 一 下 “还 配 优 先 和 忽略 优先 都 期 户 获 得 罗 
Ac” C167) 。 即 使 这 个 表达 式 一 开始 匹配 到 了 引号 之 后 的 文本 ， 如 果 
找 不 到 结束 的 引号 ， 它 就 会 回调 ， 到 达 
Tie]. FA") 5a 


Nak Brag, T" ] 匹配 到 反 斜 线 ， 之 后 的 那个 引号 被 认为 是 一 个 
结束 的 引号 。 

这 个 例子 给 我 们 的 重要 司 示 是 : 
如 条 回 调 会 导致 不 期 户 ， 与 多 选 结构 有 关 的 匹配 结 末 ， 问 题 很 可 能 在 
于 ， 任 何 成 功 的 匹配 都 不 过 是 多 选 分 文 的 排列 顺序 造成 的 偶然 结果 。 

实际 上 ， 如 果 我 们 把 这 个 正则 表达 式 的 多 选 分 文 反 过 来 排列 ， 它 束 
会 错误 地 匹配 任何 包含 转 义 双 引 号 的 字符 串 。 真 正 的 问题 在 于 ， 各 个 多 
选 分 文 能 够 匹配 的 内 容 有 发 生 了 重 登 。 

那么 ， 应 该 如 何 解 决 这 个 问题 呢 ? 就 像 第 186 页 的 那个 连续 行 的 例 
子 一样 ， 我 们 必须 确保 ， 这 个 反 斜 线 不 能 以 其 他 的 方式 匹配 ， 也 残 是 说 
FETA" ] BATA" J 。 这 样 就 能 识别 双 引 号 和 文本 中 的 “特殊 ” 反 和 斜 
线 ， 必 须根 据 情况 分 别处 理 。 结 果 束 是 '" OAD *"), ELE 








得 很 好 《尽管 这 个 正则 表达 式 能 够 正常 工作 ， 但 对 于 NFA 引 擎 来 说 ， 仍 
然 有 提升 效率 的 改进 ， 我 们 会 在 下 一 半 更 详细 地 看 这 个 例子 ， 志 
222) 。 

这 个 例子 告诉 我 们 一 条 重要 的 原理 : 

不 应 该 忘记 考虑 这 样 的 “特殊 ”情形 : 例如 针对 “糟糕 (bad) ”的 数据 ， 
正则 表达 式 不 应 该 能 够 见 配 。 

我 们 的 修改 是 正确 的 ， 但 是 有 意思 的 是 ， 如 果 有 占有 优先 量词 (只 
142) 或 者 是 固化 分 组 ( 寺 139) ， 这 个 正则 表达 式 可 以 重新 写作 ' " 
AJAD x+" Alo" Q > AJAD x) "。 这 两 个 正则 表达 式 
禁止 引擎 回调 到 可 能 出 问题 的 地 方 ， 所 以 它们 都 可 以 满足 要 求 。 

理解 占有 优 移 量词 和 固化 分 组 解 次 此 问题 的 原理 非 营 有 价值 ， 但 是 
我 仍然 要 继续 之 前 的 修正 ， 因 为 对 读者 来 说 它 更 具 描 述 性 (更 直观 )。 
其 实在 这 个 问题 上 ， 我 也 愿意 使 用 占有 优先 量词 和 固化 分 组 一 一 不 是 为 
re OP YP IRS 





本 解 数据， 做 出 假设 


Knowing Your Data and Making Assumptions 

现在 是 时 低 强 调 我 曾经 数 次 提 到 过 的 天 于 构建 和 使 用 正则 表达 式 的 
AAI 了。 知道 正则 表达 式 会 在 什么 情况 中 应 用 ， 天 于 目标 数据 义 有 
什么 样 的 假设 ， 这 非常 乍 要 。 即 使 务 单 如 'a 这 样 的 数据 也 假设 目标 数 
据 使 用 的 是 作者 预期 的 字符 编码 (二 105) 。 这 都 是 一 些 很 基本 的 党 
识 ， 所 以 我 一 直 没 有 过 分 细致 地 介绍 。 

但 是 ， 许 多 对 余人 个 人 来 说 明显 的 第 识 ， 可 能 对 其 他 人 来 说 并 不 明 
显 。 例 如 ， 前 一 市 的 解决 办 法 假设 转 义 的 换行 从 不 会 被 下 配 ， 或 者 会 个 
应 用 于 点 写 通 配 模 式 C111) 。 如 采 我 们 真 的 想 要 保证 点 号 可 以 匹配 
PTH, INK Sct, Baa eC? s: .) 

前 一 太 中 我 们 还 假设 了 正则 表达 式 将 应 用 的 数据 类型 ， 它 不 能 处 理 
表示 其 他 用 途 的 双 引 号。 如 采用 这 个 正则 表达 式 来 处 理 任何 程序 的 源 代 
i, mA Renita, BAER A] feta MSS. 

HY TE BL BC» HP EU ASIA UN MA SBE, AST AY J 
JF. HREF, TUN EE, GI SPOR, BRR SES 
图 和 正则 表达 式 取 终 应 用 间 的 看 寞 。 记 录 下 这 些 假设 会 有 帮助 。 


去 除 文 本 首尾 的 空 日 字符 


Stripping Leading and Trailing Whitespace 

ZR CAS RN 28 EES EE, EA ESE TES © BS 
HI AE Db eae FAY TA ve HEB TED PAS Pa aR: 

S/N\S+//; 

s/\s+$//; 

为 了 增加 效率 ， 我 们 用 '+, 而 不 是 .大 ,，， 因 为 如 末 事 实 上 没有 需要 删 
除 的 空白 字符 ， 驶 不 用 做 华 换 。 

出 于 某 些 考虑 ， 人 们 似乎 更 希望 用 一 个 正则 表达 式 来 解决 整个 问 
题 ， 所 以 我 会 提供 一 些 方法 供 比 较 。 我 不 推荐 这 些 办 法 ， 但 对 理解 这 些 
正则 表达 式 的 工作 原理 及 其 问题 所 在 ， 非 剃 有 蕊 义 。 

s/\s * (. * ?)\s * $/$1/s 

这 个 正则 表达 式 曾 被 用 作 降 解 忽略 优先 量词 的 绝 佳 例子 ， 但 现在 不 
是 了 ， 因 为 人 们 认识 到 它 比 普通 的 办 法 慢 得 多 在 Perl 中 要 慢 5 倍 ) 。 之 
所 以 效 京 这 么 低 ， 是 因为 忽略 优先 约束 的 点 写 每 次 应 用 时 都 要 检查 \s 大 
$ 。 这 需要 大 量 的 回调 。 

s/A\s * ((?:. * \S)?)\s * $/$1/s 

这 个 表达 式 看 起 来 比 上 一 个 要 复 淋 ， 不 过 它 有 的 四 配 倒是 很 容易 理 
解 ， 而 且 所 人 花 的 时 间 也 只 是 普通 方法 的 2 倍 。 在 As 类 ,匹配 了 文本 开头 
的 空格 之 后 ， .类 ,马上 匹配 到 文本 的 来 尾 。 后 面 的 \S, 强迫 它 回调 直到 
找到 一 个 非 衬 的 字符 ， 把 剩 下 的 空白 字符 留 给 最 后 的 \s 类 $ ， 捕 获 括 号 
之 外 的 。 

问号 在 这 里 是 必须 的 ， 因 为 如 果 一 行 数据 只 包含 空 日 字符 的 行 ， 必 
须 出 现 问号 ， 表 达 式 才能 正常 工作 。 如 果 没有 问号 ， 可 能 会 无 法 匹配 
错过 这 种 只 有 空 日 字符 的 行 。 

s/\\s+|\st+$//g 

这 是 最 容易 想到 的 正则 表达 式 ， 但 它 不 正确 (其 实 这 三 个 正则 表达 
式 都 不 正确 ) ， 这 种 顶 极 的 (top-leveled) 多 选 分 支 排 列 严 重 影 响 本 来 
可 能 使 用 的 优化 措施 (参见 下 一 章 ) 。/g 这 个 修饰 符 是 必须 的 ， 它 容许 
每 个 多 选 分 文 匹 配 ， 去 挤 开 始 和 结束 的 空格 。 看 起 来 ， 用 /g 有 是 多 此 一 
举 ， 因 为 我 们 知道 我 们 只 硕 望 去 揉 最 多 两 部 分 空白 字符 ， 每 部 分 对 应 单 
独 的 子 表 达 式 。 这 个 正则 表达 式 所 用 的 时 间 是 人 简 捍 办 法 的 4 售 。 

测试 时 我 提 到 了 相对 速度 ， 但 十 实 际 的 相对 速度 取决 于 所 用 的 软件 
ABs PEN, WAR AMMAR AAPA, MATER ER AIR AY ae 
格 ， 中 间 的 那个 表达 式 甚 至 会 比 简单 的 方法 更 快 。 不 过 ， 我 日 己 在 程序 
中 仍然 使 用 下 面 丙 种 形式 的 正则 表达 式 : 


s/M\st//:s\st+$//; 
因为 它 几 乎 总 是 最 快 的 ， 而 且 显 然 最 容易 理解 。 


HTMEL 相 关 范 例 


HTML-Related Examples 

在 第 2 半 ， 我 们 曾 讨 论 过 把 纯 文本 转换 为 HTML 的 例子 (二 67) , 
其 中 要 使 用 正则 表达 式 从 文本 中 提取 E-mail 地 址 和 http URL. KEKA 
一 些 与 HIML 相 关 的 其 他 处 理 。 


匹配 HTML Tag 


Matching an HTML Tag 

mc fs DLA Ae A <[A>]+> ,来 匹配 HTML 标签 。 它 通 弟 都 能 
工作 ， 例 如 下 面 这 上段 用 来 去 除 标签 的 Perl 语 人 句 : 

$html=~s/<[A> ]+ >//g; 

如 采 tag 中 含有 “> ”， 它 驳 不 能 正和 匹配 了 了 ， 而 这 样 的 tag 明 明和 是 合乎 
HTMEL 规 范 的 : <input name=dir value=" >" 之。 虽然 这 种 情况 很 少 
见 ， 也 不 为 大 家 推荐 ， 但 HIML 语 言 确实 容许 在 引 扎 内 的 tag 属 性 中 出 现 
JERA L RS. E MERI KASN 束 无 法 匹配 了， 得 想 个 
聪明 点 的 办 法 。 

过... 记 ’' 中 能 够 出 现 引 用 文本 和 非 引 用 形式 的 “其 他 文本 (other 
stuff) ”， 其 中 包括 除了 ‘二 ;和 引 写 之 外 的 任意 字符。HTML 的 引文 可 以 
用 单 引 写 ， 也 可 以 用 双 引 号 。 但 不 容许 转 义 散人 又 的 引号 ， 所 以 我 们 可 以 
BRA "[A"]* "| ALTA] *' ORDA 

把 这 些 和 “其 他 文本 ”表达 式 [A " >] 合 起 来 ， 我 们 得 到 : 

[<(" TA" TR "YA eA" >> 

AARAA REA MEAT. ASAD EVER, FQ SERS APSR SUR 


开始 尖 括 号 "<" 
任意 数量 的 ... 
双 引 号 字符 囊 
单 引号 字符 串 


> 
+ 
+ + FS HH ESS 


ae 
Ser 
AS 
ah 
ais 
V 


IRS IATA Se, ERITH EEA 00, mi 
清楚 地 说 明了 在 匹配 的 什么 位 置 容 许 出 现 什 么 字符 。 这 个 表达 式 的 各 部 
分 不 会 匹配 重复 的 字符 ， 因 此 不 存在 模糊 性 ， 也 就 不 需要 担心 发 生前 面 
例子 中 出 现 的 , “不 小 心 冒 出 来 (sneaking in) JEET A. 

不 知 你 是 否 注意 到 了 ， 最 开始 的 两 个 多 选 分 文 的 引号 中 使 用 了 
类 ， 而 不 是 + 。 引 用 和 字符 串 可 能 为 空 〈 例 如 ‘alt=""，) ， 上 所 以 要 用 
大 来 处 理 这 种 情况 。 但 不 要 在 第 三 个 多 选 分 文中 用 [ * 取代 '+ ， 因 
AIM" >] 只 接 党 插 号 外 的 的 限定 。 给 它 添 加 一 个 加 喜 得 到 
(CA > 六]+) * ， 可 能 导致 非 章 奇 怪 的 结果 ， 我 不 期 望 旋 者 现在 驶 能 
理解 ， 下 一 章 (226) 会 详细 讲解 它 。 

在 使 用 NFA 引 擎 时 ， 我 们 还 需要 考虑 关于 效率 的 问题 : 既然 没有 用 
到 括 志 匹配 的 文本 ， 我 们 可 以 把 它们 改 为 非 捕 钓 型 括号 C137) 。 
为 多 选 分 文 之 间 不 存在 重复 ， 如 果 最 后 的 "> 无 法 匹配 ， 那 么 回头 来 答 
试 其 他 的 多 选 分 文 也 是 秆 过 的 。 如 果 一 个 多 选 分 文 能 够 在 某 个 位 置 匹 
配 ， 那 么 其 他 多 选 分 文 育 定 无 法 在 这 里 匹配 。 所 以 ， 不 保存 状态 也 无 所 
谓 ， 这 样 做 还 可 以 更 快 地 导致 失败 ， 如 果 找 不 到 匹配 结果 的 话 。 我 们 可 
以 用 固化 分 组 '(? >...) 而 不 是 非 捕 获 型 括号 (或 者 用 占有 优先 的 性 
FIRE) 。 


LÆ HTML Link 


Matching an HTML Link 
假设 我 们 需要 从 一 份 文 档 中 提取 URL 和 链接 文本 ， 例 如 下 面 的 文本 
中 标记 的 内 容 : 


…<a href="http://www.oreilly.com">O'Reilly Medqia</a>… 
ee 


因为 <A> tag 的 内 容 可 能 相当 复兴 ， 我 会 分 两 步 实 现 这 个 任务 。 
第 一 个 是 握 取 科 A> tag 内 部 的 内 容 ， 也 束 丰 链 接 文 本 ， 然 后 从 <=A 
tag 中 提取 URL 地 址 。 

实现 第 一 步 有 个 简单 办 法 ， 束 是 在 点 号 通 配 模 式 下 应 用 不 区 分 大 小 
写 的 '<ab (>J > Cx? ) <</a> ， 这 里 使 用 了 忽略 优先 量词 。 
它 会 把 二 A> 的 内 容 放 入 $1， 把 链接 文本 放 入 $2。 当 然 ， 像 之 前 一 样 ， 
RAMIZA D> ， 而 应 该 使 用 前 几 贡 中 的 表达 式 。 不 过 在 本 太 ， 我 
nd 

过 A> 的 内 容 存 入 字符 串 之 后 ， 融 可 以 用 独立 的 正则 表达 式 来 检 香 
它们 。 其 中 ，URL 是 href=value 属 性 的 值 。 之 前 已 经 说 过 ，HITML 容 许 
等 号 的 任意 一 侧 出 现 衬 白字 符 ， 值 可 以 以 引用 形式 出 现 ， 也 可 以 以 非 引 
用 形式 出 现 。 下 面 的 Perl 代码 用 来 输出 变量 $Html 中 的 链接 。 


# 请 注意 : while(,,.) 中 的 正则 表达 式 是 简化 的 形式 ， 请 参见 正文 
while ($Html =~ m{a\b([*>]+)>(.*?)</a>}ig) 
| 

my SGuts = $1; # 把 匹配 结果 存 入 ... 


my SLink = $2; # ....4 MEE 
if (SGuts =~ mI 
\b HREF # "href" 属性 
\s* = \s* # "=" Fam] feb LS GTA 
(23 # HULA... 
| # IG] > Fit F 
| 4 a 
人 到” # 单 引 号 字符 囊 
| i RAH... 
(rsh | Ff "其 他 文本 " 
) # 
}X1) 
| 
my $Url = $+; # 获得 $1、$2 等 中 实际 参与 匹配 的 编号 最 大 的 捕获 型 括号 的 内 容 


print "SUrl with link text: SLink\n"; 
| 
} 
AJLA mE: 
e 我 们 为 匹配 值 的 每 个 多 选 结构 都 请 加 了 括号 ， 来 捕获 确切 的 文 
本 。 


e 因 为 我 使 用 了 茶 些 括号 来 捕获 文本 ， 在 不 需要 捕获 的 地 方 我 使 用 
非 捕 获 型 括号 ， 这 样 做 既 清 楚 义 高 效 。 

e“ 其 他 字符 ”部 分 排除 了 空白 字符 ， 也 排除 了 引号 和 人 二”。 

e 因 为 需要 捕获 整个 href 的 值 ， 这 里 使 用 了 '+ 来 限制 “其 他 文本 ”多 
选 分 文 。 这 是 人 耕 会 和 第 200 页 对 其 他 字符 应 用 '+ SSE aS a PY 
ZERO WE? 不 会 ， 因 为 这 外 面 没 有 直接 作用 于 整个 多 选 结构 的 量词 。 其 
中 的 细节 同样 会 在 下 一 章 讨论 。 

根据 具体 文本 的 不 同 ， 最 后 ，URL 可 能 保存 在 $1、$2 或 者 $3 中 。 
此 时 其 他 捕获 型 括 写 就 为 空 或 是 未 定义 。Perl 提 供 了 特殊 变量 $+， 代 表 
= $2 之 类 中 编号 最 靠 后 的 捕获 文本 。 在 本 例 中 ， 这 就 是 我 们 真正 需要 

JURL. 

Perl 中 的 $+ 很 方便 ， 其 他 语言 也 提供 了 其 他 办 法 来 选择 捕获 的 
URL。 和 常用 的 程序 语言 结构 束 可 以 检查 捕获 型 括号 ， 找 到 需要 的 内 容 。 
如 果 能 够 支持 ， 命 名 捕获 C38) 最 适用 于 干 这 个 ， 就 像 204 页 的 
VB.NET 的 例子 那样 〈( 斑 亏 .NET 提 供 了 命名 捕获 ， 因 为 它 的 $+ 有 问题 ， 
3424) o 


检查 HTTP URL 


Examining an HTTP URL 

现在 我 们 得 到 了 URL 地 址 ， 末 看 看 它 是 否定 HTTP URL, WR 
是 ， 就 把 它 分 解 为 主机 名 Chostname) 和 路 径 (path) 两 部 分 。 因 为 已 
经 有 URL， 任 务 束 比 从 随机 文本 中 识别 URL 要 人 简单 许多 ， 识 别 的 程序 
要 难 许 多 ， 这 将 在 后 文 介绍 。 

所 以 ， 如 果 拿 到 一 个 URL， 我 们 需要 能 够 将 它 拆 分 为 各 个 部 分 。 主 
机 名 是 Ahttp: / 之 后 和 第 一 个 反 斜 线 (如 果 有 的 话 ) 之 前 的 内 容 ， 而 
路 径 就 是 除 此 之 外 的 内 容 TAhttp: / (IVE) U>)? S. 

URL “中 有 可 能 包含 端口 号 ， 它 位 于 主机 名 和 路 径 之 间 ， 以 一 个 冒 
„HL: Ahttp: // QM: ]+ ) C: d+) )? (x) ? $ 。 

下 面 是 一 个 分 解 URE 的 Perl 代 三 : 


了] 

my Shost = $1; 

my $port = $3 || 80; # PRAE, HAMSI; 否则 默认 为 80 
my $path = $4 || "/"; # 如 果 存 在 ， 就 使 用 $4; 否则 默认 为 "/" 
prine “Hosts hostian"; 

print "Ports portin"; 

print "Path: Spath\n"; 

else { 

print “Not an HETE URL\n"; 


一 


验证 主机 名 


Validating a Hostname 

在 上 面 的 例子 中 ， 我 们 用 TV: ]+, 来 匹配 主机 名 。 不 过 ， 在 第 2 章 
中 (号 76) 我 们 使 用 的 是 更 复杂 的 "[-a-z]+ (\.[-a-z]+) *\. (comledul 
…|info〉，。 做 同样 的 事情 ， 复 条 程度 为 什么 会 有 这 么 大 的 牵 列 ? 

而 且 ， 虽 然 二 者 都 用 来 “匹配 主机 名 ”， 方 法 却 大 不 相同 。 从 已 知 文 
本 【例如 ， 从 现成 的 URL 中 〉 中 提取 一 些 信息 古 一 回 事 ， 从 随机 文本 中 
准确 提取 同样 信息 是 为 一 回 事 。 

而 且 ， 在 上 例 中 我 们 假设 ，‘http: /之 后 就 是 主机 名 ， 所 以 用 
TV: ]+, 来 匹配 就 是 理所当然 的 。 但 是 在 第 2 章 的 例子 中 ， 我 们 使 用 正 
则 表达 式 从 随机 文本 中 寻找 主机 名 ， 所 以 它 必 须 更 加 复 淋 。 

现在 从 为 外 一 个 角度 来 看 主机 名 的 匹配 ， 我 们 可 以 用 正则 表达 式 来 
验证 主机 名 。 也 项 是 次 ， 我 们 需要 知道 ， 一 串 字 符 是 否 是 形式 规范 、 语 
草 正 硝 的 主机 名 。 抽 规定， 主机 名 由 点 扎 分 隔 的 部 分 组 成 ， 每 个 部 分 可 
以 包括 ASCI 字符、 数字 和 过 字符 ， 但 是 不 能 以 连 字 人 符 作为 开头 和 疆 
尾 。 所 以 ， 我 们 可 以 在 不 区 分 大 小 写 的 模式 下 使 用 这 个 正则 表达 式 \: 
[a-z0-9]|[a-z0-9][-a-z0-9] * [a-z0-9] 。 结 尾 的 后 级 部 分 
(com, ‘edv, wk) 只 有 有 限 多 个 可 能 ， 这 在 第 2 章 的 例子 中 所 到 
过 。 结 合 起 来 ， 下 面 的 正则 表达 云 葡 能够 匹配 一 个 语意 正确 的 主机 名 : 


VB.NET 中 的 link 检查 程序 
下 面 的 程序 会 列 出 Html 变量 中 的 链接 : 


Imports System.Text.RegularExpressions 


' 设置 循环 中 将 会 遇 到 的 正则 表达 式 

Dim A RRegex as Regex = New Regex ( 
"<a\b (?<guts>[*>]+)>(?<Link>.*?)</a>", 
RegexOptions.IgnoreCase) 

Dim GutsRegex as Regex = New Regex ( 


"\b HREF (?# ‘href’ 属性 a a 
"YEr e ye (?# '=" 可 能 存在 空白 字符 )" & _ 
HER (3# HMA... Eg a 
o eP(S2Qrl> [hen] eh) ee (?# ” 双 引 号 字符 囊 ) 
ak (?# 或 者 是 ，.。 hon 
;el (?# ” 单 引号 字符 囊 ) - 
"| (?# RAR... yo oe Pe 
" (?<url>[*'"">\s]+) (?#  ' 其 他 文本 ' )} " ¢g 


" (?# ) " P 
RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


' 现在 检查 'Html' KF... 
Dim CheckA as Match = A Regex.Match (Html) 


' For each match within ... 
While CheckA.Success 
' 已 匹配 <a> tag, RAKHS URL 
Dim UrlCheck as Match = _ 
GutsRegex.Match (CheckA.Groups ("guts") .Value) 
If UrlCheck.Success 
' 已 经 匹配 完毕 ， 得 到 URL/1ink 
Console.WriteLine("Url " & UrlCheck.Groups("url").Value & _ 
" WITH LINK " & CheckA.Groups ("Link") .Value) 
End If 
CheckA = CheckA.NextMatch 
End While 


需要 注意 的 几 点 : 

e 在 VB.NET 中 使 用 正则 表达 式 ， 需 要 首先 执行 对 应 的 Imports 语句， 告诉 编译 器 
应 当 导 入 的 库 文 件 。 

@ 程序 中 使 用 了 '(?#…)| 风 格 的 注释 , AA VB.NET 中 加 入 换行 符 很 不 方便 , 所 以 普 
通 的 “# ”注释 会 延伸 到 下 一 个 换行 符 或 者 字符 串 的 结尾 (第 一 种 情况 即 意味 着 正 
则 表达 式 剩 下 的 所 有 内 容 都 作为 注释 )。 为 了 使 用 正常 的 #.…| 注释 , 请 在 每 一 行 的 
结尾 添加 &chr (10) (7420), 
表达 式 中 的 每 个 双 引 号 都 需要 以 “"" 表示 (103), 


两 个 表达 式 都 用 到 了 命名 捕获 ，Groups ("url") 比 Groups (1) 和 Groups (2) 之 类 
更 为 清晰 。 


Grad # 进行 不 区 分 大 小 写 的 匹配 

t 索 个 或 多 个 据点 分 隔 的 部 分 

(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9]*[a-z0-9]\. )+ 

# ”然后 是 结尾 的 后 级 部 分 ,.. 

(?: com|edu|gov|int|mil|net|org|biz|info|name|museum|coop|aero| [a-z] [a-z] ) 


9 


因为 存在 长 度 的 限制 ， 能 够 由 这 个 正则 表达 陈 匹 配 的 可 能 并 不 是 合 
法 的 主机 名 : 每 个 部 分 不 能 超过 63 个 字符 。 也 就 是 说 ， '[-a-z0-9] 关 应 
该 改 为 [-a-z0-9]{0，61} 。 

还 需要 做 最 后 的 改动 。 按 规定 ， 只 包括 后 级 的 主机 名 同样 是 语意 正 
确 的 。 但 实践 证 明 ， 这 些 “ 主 机 名 ”不 存在 ， 但 是 对 于 两 个 字母 的 后 级 来 
说 情况 可 不 是 如 此 。 人 例如， 安哥拉 的 域名 “ai 就 有 一 个 Web 服 务 器 
http: Wai/。 我 见 过 其 他 这 样 的 链接 : cc、co、dk、mm、ph、tj、tv 和 
tw。 

如 琳 布 望 多 配 这 些 特殊 情况 ， 应 该 把 中 间 的 '(? : ...) + 改 为 
Re ee 


A 


(?i) # 进行 不 区 分 大 小 写 的 匹配 
t RANKS MEAG BD 
(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9] {0,61} [a-z0-9]\. )* 


# ”然后 是 结尾 的 后 级 部 分 ... 

(?: com|edu|gov|int|mil|net|org|b1iz|info|name|museum|coop|aero| [a-z] [a-z] ) 

9 

现在 它 可 以 用 来 验证 包含 主机 名 的 字符 串 了 。 因 为 这 是 我 们 想 出 的 
与 主机 名 相关 的 三 个 正则 表达 式 中 最 复 染 的 ， 你 也 许 会 想 ， 不 要 这 些 销 
扩 ， 可 能 比 之 前 那个 从 随机 文本 中 提取 主机 名 的 表达 式 更 好 。 但 情况 并 
非 如 此 。 这 个 正则 表达 式 能 匹配 任意 双 字 母 单 词 ， 正 因为 如 此 ， 第 2 章 
中 不 那么 精妙 的 正则 表达 式 的 实际 效果 更 好 。 但 是 在 下 一 市 我 们 会 看 
到 ， 某 些 情况 下 它 仍然 不 够 完 普 。 


在 真实 世界 中 提取 URL 


Plucking Out a URL in the Real World 
供职 于 Yahoo! Finance 时 ， 我 曾 写 过 处 理 收录 的 财经 狐 闻 和 数据 的 
程序 。 新 闻 通 币 是 以 纯 文 本 格 却 捉 供 的 ， 我 的 程序 将 其 转化 为 HTML 向 


式 以 便于 显示 《〈 如 果 你 在 过 去 10 年 中 曾经 在 http: V/Wfinance.yahoo.com 浏 
响 过 财经 新 闻 ， 没 准 看 过 我 处 理 过 的 新 闻 ) 。 

因为 接受 的 数据 的 “格式 ”( 其 实 是 无 格式 ) 很 杂乱 ， 从 纯 文 本 中 识 
别 Crecognize) 出 hosthame 和 和 URL 叉 比 验证 (validate) 它们 困难 得 多 ， 
这 任务 束 很 不 轻松 。 前 面 的 内 容 并 没有 体现 这 一 点 ， 在 本 方 ， 你 会 看 到 
我 在 Yahoo! 用 来 解决 这 个 问题 的 程序 。 

这 个 程序 从 文本 中 提取 几 种 类 型 的 URL 一 一 mailto、http、https 和 
ftp。 如 果 我 们 在 文本 中 找到 ‘http: //*， 束 知道 这 肯定 是 一 个 URL 的 开 
头 ， 所 以 我 们 可 以 直接 用 "http: //[-\w]+ (\.\w[-\w] *) + 来 匹配 主机 
名 。 我 们 知道 ， 要 处 理 的 文本 肯定 是 ASCII 编 码 的 英文 字母 ， 所 以 完全 
可 以 用 mw 来 取代 '-a-z0-9 。 人 \w ,同样 可 以 匹配 下 男 线 ， 在 东 些 系统 
中 ， 它 还 可 以 匹配 所 有 的 Unicode 字 符 ， 但 是 我 们 知道 ， 这 个 程序 在 运 
行 时 不 会 过 到 这 些 问 题 。 

不 过 ，URL 通 和 党 不 是 以 http: /或 者 mailto: 开头 的 ， 例 如 : 

...Visit us at www.oreilly.com or mail to orders@oreilly.com... 

在 这 种 情况 下 ， 我 们 需要 加 倍 小 心 。 我 在 Yahool! 使 用 的 正则 表达 
TS HUT ABA SE ASAI, Rota mA: 

(Pl? [a-Z0-9) (Pi [-G-20-9)]*%la-Z0-S))? Ns }t Ff THRE 
# .com 之 类 的 后 级 . 要 求 小 写 





(?-i: com\b 

edu\b 

biz\b 

org\b 

gov\b 

in(?:t]fo)\b # lint 或 者 .info 
mil\b 

net\b 

name\b 

museum\b 

coop\b 

aero\b 

[a-z] [a-z] \b # 双 字 在 国家 代码 


在 这 个 正则 表达 式 中 ， 我 们 用 '(? is A O -i; ...) 用 来 
规定 正则 表达 式 的 某 个 部 分 是 否 区 分 大 小 写 C135) 。 我 们 希望 四 
配 *“www.OReilly.com”， 但 不 是 'NT.TO' 这 样 的 股票 代码 (NT.TO 是 北 电 
网 络 在 多 伦 多 证 券 交 易 市 场 的 代 亏 ， 因 为 要 处 理 的 是 财经 新 闻 和 数据 ， 


这 样 的 股票 代码 很 多 ) 。 按 规定 ，URL 的 结尾 部 分 (例如 ‘.com? ) 可 能 
是 大 写 的 ， 但 我 不 准备 处 理 这 些 情况 。 因 为 我 需要 保持 平衡 匹配 期 
望 的 文本 〈 尽 可 能 多 的 URL) ， 忽 略 不 期 望 的 文本 〈 股 票 代 码 ) 。 我 希 
TA’? -i: ...) 只 包括 国家 代码 ， 但 是 在 现实 中 ， 我 们 没有 过 到 大 写 的 
URL 地 址 ， 所 以 不 必 这 么 做 。 

下 面 是 从 纯 文 本 中 和 奏 找 UREL 的 框架 ， 我 们 可 以 在 其 中 添加 匹配 主机 
名 的 子 表达 云 : 





+ 匹配 开头 部 分 (proto://hostname, 或 直接 是 hostname) 
( 
# ftp://, http:// & https:// FAAP 
(ftp | https?) r7 [miw] As Ww lee] *) 
| 
# 或 者 是 用 更 准确 的 子 表达 式 找到 hostname 


full-hostname-regex 


# 下 面部 分 可 能 出 现 ， 以 /开头 


/ path-part 

) 2 

我 还 没有 谈论 过 正则 表达 式 的 path (1) 部 分， 它 接 在 主机 名 后 
面 (例如 。 http: /www. OTST conLcatalog/regex/ 中 的 划 线 部 
T) 。path 是 最 难 正 硝 匹 配 的 文本 ， 因 为 它 需 要 一 些 猜测 才能 做 得 很 漂 
党 。 我 们 在 第 2 EW, AE URL 之 后 的 文本 也 能 被 作为 URL 
的 一 部 分 。 例 如 : 

Read his comments at 
http: //www.oreilly.com/ask_tim/index.html.He... 我 们 观察 之 后 束 会 发 
现 ， 在 "ndex.html 之 后 的 句号 是 一 个 标点 ， 不 应 该 作为 UREL 的 一 部 分 ， 
{Ae ‘index.html’ 中 的 点 亏 却 是 URE 的 一 部 分 。 

肉眼 很 容易 分 辨 这 两 种 情况 ， 但 程序 做 起 来 却 很 难 ， 所 以 必须 想 些 
聪明 的 办 法 来 尽 可 能 好 地 解雇 问题 。 第 2 章 的 例子 使 用 逆序 环视 来 确保 
URL 不 会 以 句 末 的 句号 结尾 。 我 在 Yahoo! Finance 写 程序 时 还 没有 逆序 
环视 ， 所 以 我 用 的 办 法 要 复杂 的 多 ， 不 过 效果 是 一 样 的 。 人 代码 在 下 一 


页 


~ O 


示例 5-1: 从 财经 新 闻 中 提取 URL 

\b 

# ”匹配 开头 部 分 (proto://hostname， 或 直接 是 hostname) 

( 
# ftp://、http:// 或 https:// 开头 部 分 
(ftp|https?) ://[-\w]+(\.\w[-\w] *) + 

| 

或 者 是 用 更 准确 的 子 表达 式 找到 hostname 

?i: [a-z0-9] (?:[-a-z0-9]*[a-z0-9])? \. )+ # sub domains 

,Com 之 类 的 后 组 ,要求 小 写 

7-1: com\b 

edu\b 

biz\b 

gov\b 

in (2st | £6) \6 # int R#.info 

mil\b 

net\b 

org\b 

[a-z] [a-z] \b #。 双 字母 国家 代码 


# 
( 
# 
( 


) 
) 
# 可 能 出 现 新 口号 
( :AQ+ ) 


E 剩 下 的 部 分 可 能 出 现 ， 以 /开头 ... 
( 

/ 

# 虽然 很 复杂 ， 但 确实 管用 

[人 

(p3 

Lede Plt [Pale Fe + 

)* 
)? 
这 里 用 到 的 办 法 与 第 2 章 第 75 页 用 到 的 办 法 有 很 多 人 不同， 比较 起 来 
也 很 有 意思 。 下 一 页 里 使 用 此 表达 式 的 Java 程 序 详细 介绍 了 它 的 构造 。 

在 实际 生活 中 ， 我 怀疑 目 己 古 人 否 会 写 这 样 繁 条 的 正则 表达 式 ， 但 是 
作为 取代 ， 我 会 建立 一 个 正则 表达 式 “ 库 (library) ”, 需要 时 取 用 。 这 
方面 一 个 简单 的 例子 就 是 第 76 页 的 $HostnameRegex， 以 及 下 面 的 补充 


内 容 。 


DRE BP 


Extended Examples 

“BBLS J LA i a RR HES FIESTA TU HGR ES. PISA 
微 多 一 些 ， 关 于 解决 办 法 和 错误 思路 的 着 墨 也 会 更 多 一 些 ， 最 终 会 给 出 
IEW FX 


在 Java 中 通过 变量 构建 正则 表达 式 


String SubDomain = ™(?1:[a=z0=9] | [a-z0-9] [-a-z0-9] * [a-z0-9) ) "; 
String TopDomains = "(?x-i:com\\b \n" + 
i |edu\\b \n" + 
y Ibiz\\b \n" + 
a lin(?:t!f£o) \\b \n" + 
"i |mil\\b \n" + 
i Inet\\b \n" + 
i |org\\b a + 
i | [a=] [a=z]\\b \n" + // country codes 
my Kn" 
String Hostname = "(?:" + SubDomain + "\\.)+" + TopDomains; 
String NOT IN = "p\"'<>()\\C\\] CE\\S\ARTEH\AREF"; 
String NOT END = Theo? 
String ANYWHERE = "[*" + NOT IN + NOT END + "J"; 
String EMBEDDED = "[" + NOT END + oa 
String UrlPath = "/"+ANYWHERE + "* ("+EMBEDDED+"+"+ANYWHERE+"+) *"; 
String Url = 
"(23 \n"+ 
" \\b \n"+ 
" ## Peat hostname \n"+ 
~“ f \n"+ 
"  (?:; ftp | http s? ): // [-\\w]+(\\.\\w[-\\w]*)+\n"+ 
"W | \n"+ 
R "+ Hostname + " \n"+ 
" ) \n"+ 
" $ 可 能 出 现 喘 口号 \n"+ 
" (Ps Na }? \n"+ 
x \n"+ 
j # 下 面 的 部 分 可 能 出 现 ， 以 \ 开 头 \n"+ 
" (2: "+ UrlPath + ")? \n"+ 


W 1 


// 现在 把 正则 表达 式 编译 为 正则 对 象 
Pattern UrlRegex = Pattern.compile(Url); 


// 现在 准备 在 文本 中 应 用 ， 寻 找 ur1,.， 


剑 持 数据 的 协调 性 


Keeping in Sync with Your Data 

我 们 来 看 一 个 长 一 点 的 例子 ， 它 有 点 极 问 ， 但 很 清楚 地 说 明了 保持 
协调 的 重要 性 《同时 提供 了 一 些 傈 持 协 调 的 方法 ) 。 

假设 ， 需 要 处 理 的 数据 是 一 系列 连续 的 5 位 数 美国 邮政 编码 (ZIP 
Codes) ， 而 需要 提取 的 是 以 44 开 头 的 那些 编码 。 下 和 面 是 一 点 抽样 ， 我 
们 需要 提取 的 数值 用 粗 体 表 示 : 

03824531449411615213441829505344272752010217443235 

最 容易 想到 的 \dd\d\d\d ， 它 能 匹配 所 有 的 邮政 编码 。 在 Perl 中 可 
以 用 @zips=m 和 人 d\d\d\d\d/g; 来 生成 以 邮政 编码 为 元 素 的 list〈 为 了 让 这 些 
例子 看 起 来 更 整洁 ， 我 们 假设 需要 处 理 的 文本 在 Penl 的 默认 目标 变量 $_ 
H, W79) 。 如 果 使 用 其 他 语言 ， 也 只 需要 循环 调用 正则 表达 式 的 
find 方法 。 我 们 关注 的 是 正则 表达 式 本 里， 而 不 是 语言 的 实现 机 制 ， 所 
以 下 而 继续 使 用 Perl。 

回 到 "dd\d\d\d ， 下 面 提 到 的 这 一 点 很 快 就 会 体现 出 其 价值 ， 在 整 
个 解析 过 程 中 ， 这 个 正则 表达 式 任何 时 候 都 能 够 思 配 一 一 绝对 没有 传动 
| (我 假设 所 有 的 数据 都 是 规范 的 ， 此 假设 与 具体 情况 
密切 相关 ) 。 

很 明显 ， 把 \d\d\d\d\d BOY '44\d\d\d 来 查找 以 44 开头 的 邮政 编码 
不 是 个 好 办 法 一 一 思 配 失败 之 后 ， 传 动 装置 会 驱动 前 进 一 个 字 从 ， 对 
44... 的 罗 配 不 再 是 从 每 个 邮政 编码 的 第 一 位 开始 。'44\d\d\d 会 错误 地 
多 配 和 ...5314494116...”。 

“PR, RATE DAE TEU ZA SAITAMA VA, TAREE A BET AY 
一 行文 本 中 的 第 一 个 邮政 编码 。 我 们 需要 手动 保持 正则 引擎 的 协调 ， 才 
能 忽略 不 需要 的 邮政 编码 。 这 里 的 关键 是 ， 要 跳 过 完整 时 邮政 编码 ， 而 
不 是 使 用 传动 装置 的 驱动 过 程 (bump-along) 来 进行 单个 字符 的 移动 。 

根据 期 望 保 持 匹 配 的 协调 性 

下 面 列举 了 几 种 办 法 用 来 跳 过 不 需要 的 邮政 编码 。 把 它们 添加 到 正 
则 表达 式 '44\d\d\d 之 前 ， 可 以 获得 期 望 的 结果 。 非 捕获 型 括号 用 来 匹配 
不 期 望 的 邮政 编码 ， 这 样 能 够 快速 地 略 过 它们 ， 找 到 匹配 的 邮政 编码 ， 
在 第 一 个 $1 的 捕获 括号 中 : 

| (?:[A4]\d\d\d\d|\d[4]\d\d\d) 天. 

这 种 便 办 法 (brute-force method) 主动 略 过 非 44 开 头 的 邮政 编码 
(当然 ， 用 '[1235-9] 答 代 '[A4] 可 能 更 合适 ， 但 我 之 前 说 过 ， 假 设 处 理 








的 是 规范 的 数据 ) 。 注 意 ， 我 们 不 能 使 用 〈? [A4]P4]\d\d\d) x, 
因为 它 不 会 匹配 〈 也 就 无 法 略 过 ) 43210 这 样 不 期 望 的 邮政 编码 。 

| (2:(2!44)\d\d\d\d\d) * ... 

XP IMMEDI AES IP AY Ay. FFP AAS ZA FP A, 
{EFA IE RETA SAE HOR LETRA EEC A Bi RI FE SS ANY TE 
RIK TMAH, FER, HAE AAs AFA) SU a ay 
(? ! 44) 失败 ， 于 是 略 过 俘 止 。 

| (?:\d\d\d\d\d) * ?... 

这 个 办 法 使 用 忽略 优先 量词 ， 只 有 在 需要 的 时 候 才 上 略 过 菜 些 文本 。 
我 们 把 它 放 在 真正 需要 匹配 的 正则 表达 陈 前 面 ， 所 以 如 末 那 个 表达 式 失 
败 ， 它 就 会 匹配 一 个 邮政 编码 。 急 略 优 先 '(...〉 类? 导致 这 一 切 的 发 
生 。 因 为 存在 忽略 优先 量词 ，'(? : \d\d\d\d\d) 甚至 都 不 会 尝试 匹 
配 ， 在 后 面 的 表达 式 失 败 之 前 。 星 号 人 确 你 了 ， 它 会 午 复 失败 ， 和 直到 最 终 
找到 匹配 文本 ， 这 样 束 能 只 跳 过 我 们 希望 跳 过 的 文本 。 

把 这 个 表达 式 和 (44\d\d\d) 合 起 来 ， 就 得 到 : 

@zips=m/ (?:\d\d\d\d\d) *?(44\d\d\qd) /g; 


它 能 够 提取 以 44 开 头 的 邮编 ， 而 主动 跳 过 其 他 的 邮编 
(在 “@array=m/.../g” 的 情况 下 ，Perl 会 用 每 次 尝试 中 找到 的 匹配 文本 来 
填充 这 个 数组 ， 寺 311) 。 这 个 表达 式 能 够 重复 应 用 于 字符 串 ， 因 为 我 
们 知道 每 次 匹配 的 “起 始 匹 配 位 置 ” 都 是 某 个 邮政 编码 的 开头 位 置 ， 也 整 
保证 下 一 次 匹配 是 从 一 个 邮政 编码 的 开始 ， 这 正定 正则 表达 陈 期 望 的 。 

不 匹配 时 也 应 当 傈 证 协调 性 

我 们 是 人 否 能 你 证 ， 每 次 正则 表达 式 都 在 邮政 编码 字符 串 的 开头 位 置 
应 用 ? 显然 不 是 ! 我 们 手动 跳 过 了 不 人 符合 要 求 的 邮政 编码 ， 可 一 旦 不 需 
要 继续 匹配 ， 本 轮 匹 配 失 败 之 后 目 然 下 是 驱动 过 程 和 重 试 ， 这 样 吏 会 从 
邮政 编码 字符 串 之 中 的 某 个 位 置 开始 一 一 我 们 的 方法 不 能 处 理 这 种 情 


况 。 
再 来 看 数据 样本 : 


03824531449411615213441829503544272 7 5 2 010217443235 
eect aia | ican’ imi i er ee E 


匹配 的 代码 以 粗 体 标注 《第 三 组 不 符合 要 求 ) ， 主 动 跳 过 的 代码 以 
下 男 线 标注 ， 通 过 驱动 过 程 - 重 试 略 过 的 字符 也 标记 出 来 。 在 44272L 配 
之 后 ， 目 标 文本 中 再 也 找 不 到 匹配 ， 所 以 本 轮 演 试 宣告 失败 。 但 总 的 签 
试 并 没有 宣告 失败 。 传 动机 构 会 进行 驱动 ， 从 字符 串 的 下 一 个 字符 开始 
应 用 正则 表达 式 ， 这 样 束 破坏 了 协调 性 。 在 第 四 次 张 动 之 后 ， 正 则 表达 








式 略 过 10217， 错 误 地 匹配 44323。 

如 果 在 字符 串 的 开头 应 用 ， 这 三 个 表达 式 都 没有 问题 ， 但 是 传动 浅 
置 的 驱动 过 程 会 破坏 协调 性 。 如 果 我 们 能 取消 驱动 过 程 ， 或 者 保证 驱动 
过 程 不 会 添 肪 烦 ， 问 题 瓯 解决 了 。 

办 法 之 一 是 茶 止 驱动 过 程 ， 即 在 前 两 种 办 法 中 的 "(44\d\d\d) 之 后 

MSH? ， 将 其 改 为 匹配 优先 的 可 选项 。 这 样 ， 刻 意 安 排 的 " 〈? : 
(? ! 44) \d\d\d\d\d) x... 或 '(? : [A4]NddddlNd[A4]Nddd) *... 就 
只 会 在 两 种 情况 下 停止 : 发生 符合 要 求 的 匹配 ， 或 者 邮政 编码 字符 串 绪 
束 〈( 这 也 是 此 方法 不 适用 于 第 三 个 表达 式 的 原因 )〉 。 这 样 ， 如 果 存 在 符 
合 要 求 的 邮政 编码 ，『 (44\d\d\d) ? 就 能 匹配 ， 而 不 会 强迫 回 渭 。 

这 个 办 法 仍然 不 够 完善 。 原 因 之 一 是 ， 即 便 目 标 字 符 串 中 没有 符合 
要 求 的 邮政 编码 ， 也 会 匹配 成 功 ， 接 下 来 的 处 理 程 序 会 变 得 更 复杂 。 不 
过 ， 其 优点 在 于 速度 很 局 ， 因 为 不 需要 回 斋 ， 也 不 需要 传动 狼 置 进行 任 
何 驱 动 过 程 。 

使 用 \G 傈 证 协调 

更 通用 的 办 法 是 在 这 三 个 表达 陈 末尾 评 加 \G (5130) 。 因 为 每 
个 表达 式 的 每 次 匹配 都 以 符合 要 求 的 邮政 编码 结尾 ， 下 次 匹配 开始 时 惑 
不 会 进行 驱动 。 而 如 果 有 驱动 过 程 ， 开 涉 的 \G 会 立刻 导致 匹配 失败 ， 
因为 在 大 多 数 流派 中 ， 只 有 在 未 发 生 驱 动 过 程 的 情况 下 ， 它 才能 成 功 匹 
Ac (但 在 Ruby 和 其 他 规定 \G 表示 “本 次 匹配 起 始 位 置 ” 的 流派 中 不 成 并 
131) 

Ar A AS RIA SUR MT 

@zips = m/\G(?: (2?!44) \d\d\d\d\d) * (44\d\d\d)/g; 

YU CZ Ja WN es ETE ST EAA RE A o 

本 例 的 意义 

我 首先 了 水 认 ， 这 个 例子 有 点 极 咒 ， 不 过 ， 它 包公 了 许多 保证 正则 表 
达 式 与 数据 协调 性 的 知识 。 如 果 现 实生 活 中 需要 人 处理 这 样 的 问题 ， 我 可 
能 不 会 完全 用 正则 表达 式 来 解决 。 我 会 直接 用 "dd\d\d\d 来 提出 每 个 邮 
政 编码 ， 然 后 检查 它 是 否 以 244: 开 头 。 在 Penl 中 是 这 样 : 


iB = { J? # ”确保 数组 为 空 


while (m/(\d\d\d\d\d)/g) { 
Szip = $1; 
if (substr(Szip, 0, 2) eq 44") { 
push zips, S21p: 
} 
} 
XAG 有 兴趣 的 谈 者 请 参考 132 页 的 补充 内 容 ， 尽 管 本 书写 作 时 只 
能 举 Perl 的 例子 。 


解析 CSV 文 件 


Parsing CSV Files 
解析 CSV CE Sat bet) OCP A RL, ee SEER aa AO 
CSV 文 件 格式 。 首 先 来 看 如 何 解 析 Microsoft Excel 生成 的 CSV 文 件 ， 然 
后 再 看 其 他 格式 〈 注 3) 。 和 对 和 运 的 是 ，Microsoft 的 格式 是 最 简单 的 。 以 
过 写 分 阳 的 值 要 么 是 “纯粹 的 ”( 仪 仪 包含 在 括 与 之 前 ) ， 要 么 是 在 双 引 
号 之 间 《〈 这 时 数据 中 的 双 引 号 以 一 对 双 引 号 表示 ) 。 
下 和 面 古 个 例子 : 
Ten Thousand, 10000, 2710, , "10, 000", "Its " " 10 Grand 
""，baby" ，10K 这 一 行 包含 七 个 字段 〈fields) : 
Ten*Thousand 
10000 
“2710: 
ZFA 
10,000 
Le ae" LO*Grana” ed papy 
10K 


为 了 从 此 行 解 析出 各 个 字段 ， 我 们 的 正则 表达 式 需 要 能 够 处 理 两 种 
格式 。 非 引号 格式 包含 引号 和 逗号 之 外 的 任何 字符 ， 可 以 用 ' 惟 " ，]+ 
匹配 。 

双 引 号 字段 可 以 包含 人 逗号、 空格 ， 以 及 双 引 号 之 外 的 任何 字符 。 还 
可 以 包含 连 在 一 起 的 两 个 双 引 号 。 所 以 ， 双 引号 字段 可 以 由 '" ..." 之 
间 任 意 数 量 的 A" | " 匹配 ， 也 就 是 '" C2: Any") *" 
(为 效率 考虑 ， 我 们 可 以 使 用 固化 分 组 '(? >.) 来 替代 O : 


a) ,，， 不 过 这 个 话题 留 到 下 一 章 打 259) 。 
综合 起 来 ， [人 " ; ]+| " (? ; [^ " ]| mon ) y" 能 够 匹配 一 个 字 
段 。 这 可 能 有 氮 难看 恒 ， 下 面 我 们 给 出 宽松 排列 《至 111) 格式 : 


# 引号 和 运 号 之 外 的 文本 ... 
an 8 

# .. .或 者 是 ... 

| 

# 


. . . 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # ACRES] > 
fee Lee]. | 7S 2S 
" + 结 来 双 引 号 


现在 这 个 表达 式 可 以 实际 应 用 到 包 仿 CSV 文本 行 的 字符 串 上 了 ， 但 
如 果 我 们 希望 其 正 利 用 匹配 结果 ， 束 应 该 知道 具体 是 哪个 多 选 分 文史 配 
Jo WR EMI SPT, MmBAR A BPM sls, FELL AR 
ARADA PR A EPS LG] S o 

FC HEAL BIEN IMA A NT. FE ee i BV ARN BN EE 
引号 ， 如 果 是 ， 则 去 挥 第 一 个 和 最 后 一 个 字符 〈“ 双 引号 ) ， 然 后 把 中 间 
A" "RRAN" *。 这 办 法 够 何 单 ， 但 如 末 使 用 捕获 型 括 与 会 更 位 
单 。 如 朱 我 们 给 捕获 字段 的 每 个 子 雪 达 云 讨 加 捕获 型 括号 ， 可 以 在 匹配 
之 后 检查 各 个 分 组 的 信 : 


# 引号 和 过 号 之 外 的 文本 . . . 
( [*",]+ ) 
# ... MAK... 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
we 
" F BE BI] | 

如 果 是 第 一 个 分 组 捕获 ， 则 不 需要 进行 任何 处 理 ， 如 果 是 第 二 个 分 
组 ， 则 只 需要 把 6"" :等 换 为 "": 即 可 。 

下 面 给 出 Perl 的 程序 ， 和 后 〈( 找 出 菜 些 bug 之 后 ) 给 出 Java 和 
VB.NET 在 第 10 章 给 出 PHP 的 程序 至 480) 。 下 面 是 Perl 程序 ， 假 设 数 
-ry a 
yx! ) : 


while (Sline =~ mf 
# 引号 和 去 号 之 外 的 文本 ... 


ee ee 
| 
E ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 


" # 起 始 双 引号 
( ee C 1 = Js} 
" # 结束 双 引 号 
} gx) 


if (defined Si) 4 
Stielid = 61; 
} else { 
Ssfield = $2: 
$field =~ s/""/"/q; 
} 
print "(S$field]"; # 输出 $Sfield 供 调试 
现在 可 以 处 理 Sfield J... 
} 
将 其 应 用 于 测试 数据 ， 结 果 为 : 
[Ten:Thousand][10000][:2710:][10,000][It's: " 10-Grand " ,-baby] 
[10K] 
看 来 没 问题 ， 但 不 幸 的 是 它 不 会 输出 为 空 的 第 四 个 字段 。 如 果 “ 处 
理 $field” 十 将 字段 的 值 存 入 数组 ， 完 成 后 访问 数组 的 第 五 个 元 素 得 到 第 
五 个 字段 (“10，000”)) 。 这 显然 不 对 ， 因 为 数组 的 元 素 与 空 字 上 段 不 对 
想到 的 第 一 个 办 法 是 把 [和 ^"，]+ BOA TA", ]* ， 这 看 来 是 显 而 
Sy NWA), (AE IE RAMS? 
测 斌 一下， 下面 是 结 
[Ten:Thousand]|[ ][10000][ ][-2710-][][][][10,000][][][It's: " 10:Grand " , 


哇 ， 现 在 出 来 了 一 扒 衬 字段 ! PA BIE, WAS AICTE . 
G.D 赤 ; 的 匹配 可 以 不 与 用 任何 字符 。 如 末 真 的 过 到 空 字段 ， 确 实 能 
匹配 ， 那 么 考虑 第 一 个 字段 匹配 之 后 的 情况 呢 ， 此 时 正则 表达 却 从 


Ten*Thousand , ”开始 应 用 。 如 果 表 达 式 中 没有 元 素 可 以 匹配 
逗号 (就 本 例 来 说 )， 就 会 发 生长 度 为 0 的 成 功 匹配 。 实 际 上 ， 这 样 的 


风 配 可 能 有 无 祁 多 炊 ， 因 为 正则 引 获 可 能 在 同一 位 置 重 复 这 样 的 匹配 ， 
现代 的 正则 引 获 会 强迫 进行 驱动 过 程 ， 所 以 同一 位 置 不 会 友 生 两 炊 长 度 
为 0 的 匹配 C131) 。 上 所 以 每 个 有 效 匹配 之 间 还 有 一 个 空中 配 ， 在 每 
个 引号 字段 之 前 会 多 出 一 个 空 罗 配 (而且 数组 末尾 还 会 有 一 个 空 风 配 ， 
只 是 此 处 没有 列 出 来 ) 。 

分 解 驱 动 过 程 

要 解决 问题 ， 我 们 束 不 能 依赖 传动 机 构 的 驱动 过 程 来 越过 逗 写 。 所 
以 ， 我 们 需要 手工 来 控制 。 能 想到 的 办 法 有 两 个 : 

1. 手 工 匹配 逗号 。 如 条 采取 此 办 法 ， 需 要 把 逗号 作为 普通 字段 匹配 
的 一 部 分 ， 在 字符 串 中 “迈步 (pace ourselves) ”。 

2. 硝 体 每 次 匹配 都 从 字段 能 够 开始 的 位 置 开 始 。 字 段 可 以 从 行 首 ， 
或 者 是 逗号 开始 。 

可 能 更 好 的 办 法 是 把 两 着 结合 起 来 。 从 第 一 种 办 法 《匹配 去 亏本 
J) 出 友 ， 只 需要 你 证 逗号 出 现在 第 一 个 字段 之 外 的 所 有 字段 开头 。 或 
者 ， 体 证 喜 号 出 现在 最 后 一 个 字段 之 外 的 所 有 字段 的 末尾 。 可 以 在 表达 
式 前 耐 洪 加 个 ， ， 或 者 后 面 深 加 下 ， ， 用 括号 控制 范围 。 

FEATS, WLS Bl: 

(?:^[,) 


# 引号 和 过 号 之 外 的 文本 . .. . 
人 
t o AFR.. 
| 
# ... 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
# 起 始 双 引号 
L AFS [S] ] SE p] 
# ”结束 双 引 号 


) 

看 起 来 它 应 当 没 错 ， 但 实际 的 结果 却 是 : 

[Ten:Thousand|[10000][:2710:][][][000][j[:baby][10K] 

而 我 们 期 望 的 是 : 

[Ten:-Thousand][10000][-2710- |[][10,000][It's- " 10°Grand ,-baby] 
[10K] 

问题 出 在 哪里 呢 ? 似 乎 是 双 引 号 字段 没有 正确 处 理 ， 所 以 问题 出 在 
ERE, MNS? 不 对 ， 问 题 在 前 面 。 或许 176 页 的 告诫 有 所 帮助 : 如 果 
多 个 多 选 分 文 能 够 在 同一 位 置 匹配 ， 必 须 小 心地 排列 顺序 。 第 一 个 多 


weap sc TA", Jx 不 需要 匹配 任何 字符 就 能 成 功 ， 除 非 之 后 的 元 又 强 
迫 ， 人 个 则 第 二 个 多 选 分 文 不 会 获得 答 试 的 机 会 。 而 这 两 个 多 选 分 文 之 后 
没有 任何 元 际 ， 所 以 第 二 个 多 选 分 文 永远 不 会 得 到 答 试 的 机 会 ， 这 融 是 
问题 所 在 ! 
”上 哇 ， 现 在 我 们 已 经 找到 了 问题 所 在 。OK， 交 换 一 下 多 选 分 文 的 顺 
FP: 
prania) 
(?: # 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ... 
" # (起 始 双 引号 ) 
EC pes. PG 
" # (起 始 双 引号 ) 
| 
# ... 或 者 是 引号 和 过 号 之 外 的 文本 . . . 
t Pee J 
) 
对 了 ! 至 少 对 测试 数据 来 说 是 对 了 。 如 果 数 据 变 了 ， 还 是 这 样 吗 ? 
本 刷 的 标题 是 “分 解 驱 动 过 程 "， 而 最 你 险 的 办 法 束 是 以 完整 测试 作为 基 
而 的 思考 ， 故 可 以 用 \G 来 确保 每 次 匹配 从 上 一 次 匹配 结束 的 位 置 开 
始 。 考 谍 到 构建 和 应 用 正则 表达 去 的 过 程 ， 这 样 做 应 该 绝对 没 问 题 。 如 
果 在 表达 式 开 始 添加 \AG ， 就 会 禁止 引擎 的 驱动 过 程 。 我 们 希望 这 样 修 
改 不 会 出 问题 ， 但 是 结果 并 非 如 此 。 之 前 输出 
[Ten:-Thousand][10000][-2710- |[][]LO00][][-baby][10K] 
IEW RIA SASING Z Ja, FFF 
[Ten:Thousand][10000]|-2710- |[ ][] 
如 果 起 初 没 看 明日 ， 这 样 看 会 更 明显 。 


CSV Processing in Java 


这 里 有 一 个 使 用 Sun 4) java.util.regex Mat CSV 的 例子 。 这 段 程序 着 眼 于 简洁 的 、 
更 有 效 的 版 本 一 一 第 8 章 (7401) 将 会 介绍 。 


import java.util.regex.*; 


String regex = // 把 双 引 号 字段 存 入 group (1) 、 非 引号 字段 存 入 group (2) 


PVG es 和 \n"4 
k eA- \n"+ 
"  # 要 么 是 双 引 号 字段 ... \n"+ 
Eo Y # 字段 起 始 双 引 号 A oh 
á C eee Dee I TY rej is 
mY # 字段 结束 双 引 号 \n"+ 
j | # eee BY eee \n"+ 
a # 非 引 号 非 吉 号 文本 ..， \n"+ 
" Bh wes \n"+ 
-g Wy 


// 创建 使 用 上 面 正则 表达 式 的 matcher， 暂 时 不 指定 需要 应 用 的 文本 
Matcher mMain = Pattern.compile( regex, Pattern.COMMENTS) .matcher("") ; 


// 为 "" | 创建 一 个 matcher， 暂 时 不 指定 需要 应 用 的 文本 


Matcher mQuote = Pattern.compile("\"\"") .matcher("") ; 


// 上 面前 是 准备 工作 ,下面 的 代码 逐 行 处 理 文本 
mMain.reset( line); // 下 面 处 理 Line 中 的 CSV 文本 
while ( mMain.find()) 
{ 
String field; 
if ( mMain.start(2) >= 0) 
field = mMain.group(2); // 非 引 号 字段 ， 直 接 使 用 
else 
// 引号 字段 ， 替 换 其 中 的 成 对 双 引 号 
field = mQuote.reset (mMain.group(1)).replaceAll("\""); 
// RETR... 
System.out.println("Field [" + field + "]"); 


男 一 个 办 法 

本 节 的 开头 提 到 有 两 种 办 法 正确 轧 配 各 个 字段 。 之 二 是 人 确 你 匹配 只 
能 在 容许 出 现 字 段 的 地 方 开始 。 从 表面 上 看 ， 这 类 似 于 添加 中，， 只 
是 使 用 了 逆序 环 饮 "《〈? <N, ) 。 

PERE, RAIA (133) 的 解释 ， 即 使 可 以 使 用 逆序 环视 ， 
也 不 见得 能 够 使 用 变 长 的 逆序 环视 ， 所 以 此 方法 可 能 无 法 使 用 。 如 果 问 
题 在 于 长 度 可 变 ， 我 们 可 以 把 '(? <=, ) 替换 为 " (? N< 
=，) ) ， 但 是 相 比 第 一 种 办 法 ， 它 太 打 烦 了。 而 且 ， 它 仍然 依赖 传动 
冯 置 的 驱动 过 程 来 越过 逗号 ， 如 末 别 的 地 方 出 了 什么 关 错 ， 它 会 容许 
在 “..." 10, _000" .. ”处 的 匹配 。 总 的 来 说 就 是 ， 不 如 第 一 种 办 法 保 
BaF o 

ANTS BATT AY jE i —— 2 5 DEBE 5S ZA CRC EIT ZAR 
之 前 ) 结束 。 在 表达 式 结 尾 添 加 ©? =$|，) 可 以 确 你 它 不 会 进行 错误 
的 匹配 。 实 际 生 活 中 ， 我 会 这 样 做 吗 ? EL ASHES TAR 
用 ， 所 以 过 到 这 种 情况 我 可 能 不 会 采取 第 二 种 办 法 ， 不 过 如 果 需 要 ， 这 
拉 巧 却 是 很 有 用 的 。 

进一步 提高 效率 

尽管 在 下 一 章 之 前 都 不 会 谈论 效率 ， 但 对 于 文 持 固化 分 组 〈 到 
139) 的 系统 ， 我 还 是 愿意 在 这 里 给 出 提高 效率 的 修改 : 把 匹配 双 引 号 
字段 的 子 表 达 陈 从 C2: AY" "0 x BAT O >A" + 
x 。 下 一 页 用 VB.NET 的 例子 做 了 说 明 。 

如 果 像 Sun 的 Java regex package 那 样 文 持 占有 优先 量词 C142) ， 
也 可 以 使 用 占有 优先 量词 。Java CSV 程 序 的 补充 内 容 说 明了 这 一 点 。 

这 些 修改 背后 的 道理 会 在 下 一 半 讲 解 ， 最 终 我 们 会 在 271 页 给 出 效 
率 最 局 的 办 法 。 

其 他 CSV 格 式 

Micorsoft 时 CSV 格 却 很 流行 ， 因 为 它 是 Microsoft 时 CSV 格 式 ， 但 其 
他 程序 可 能 有 不 同 格式 ， 我 见 过 的 情况 还 有 : 

e 使 用 任意 字符 ， 例 如 '; "或 者 制 表 符 作 为 分 隅 。 不 过 这 样 名 字 还 
能 叫 “ 运 号 分 隅 仁 ? 吗 ? ) 

e 容 许 分 隔 符 之 后 出 现 空格 ， 但 不 把 它们 作为 值 的 一 部 分 。 

e 用 友和 斜 线 转 义 引号 〈 例 如 用 ^\ "CANES" " :类 表示 值 内 部 的 引 
F) 。 通 第 这 意味 独 反 矢 线 可 以 在 任何 字符 前 出 现 〈 并 忽略 ) 。 

这 些 变 化 都 很 容易 处 理 。 第 一 种 情况 只 需要 把 过 号 蔡 换 为 对 应 的 分 
隔 符 ， 第 二 种 只 需要 在 第 一 个 分 隔 符 之 后 添加 As 类 ， 例 如 以 ' (3 : 





A SAD I 

第 三 种 情况 ， 我 们 可 以 用 之 前 的 办 法 (198) , WE" jH" o" & 
PA TI" JN 。 当 然 ， 我 们 必须 把 后 面 的 /"" /" /g 改 为 更 通用 的 s\\ 
C.) /$1/g， 或 者 对 应 语言 中 的 代码 。 


VB.NET 的 CSV 处 理 


Imports System.Text.RegularExpressions 


Dim FieldRegex as Regex = New Regex( _ 
ELE |) 
ae ee " 
" (7 要 么 是 双 引 号 字段 ...) 
"NN (F 字段 起 始 双 引 号 ) 
" LO Ce pee ie | on ye : 
"oOo (F 字段 结束 双 引号 ) 
o (2k way WE nun) i 
I | W 
" (PF aaa SPR) SSR PM Ln.) i 
和 ( dari’ I 
" )", RegexOptions.IgnorePatternWhitespace) 

Dim QuotesRegex as Regex = New Regex(™ "" "" m) ' 双 引 号 字符 串 


mm o ma a ma Aa a a Aa Ma a 


Dim FieldMatch as Match = FieldRegex.Match (Line) 
While FieldMatch. Success 
Dim Field as String 
If FieldMatch.Groups (1) .Success 
Field = QuotesRegex.Replace(FieldMatch.Groups(1).Value, """") 
Else 
Field = FieldMatch.Groups (2) .Value 
End If 


Console.WriteLine("{" & Field & "]") 
' 现在 可 以 处 理 'Field' 


FieldMatch = FieldMatch.NextMatch 
End While 


第 6 章 FE m AUE M KRIS N 


Crafting an Efficient Expression 

Perl, Java, .NET, Python#IPHP (这 里 没有 列 全 ， 其 他 语言 请 参 
考 第 145 页 的 表格 ) 使 用 的 都 是 表达 陈 主 寻 的 NFA 引 擎 ， 细 和 伍 的 改变 融 
可 能 对 匹配 的 结束 及 方式 产生 重大 的 影响 。DFA 中 不 存在 的 问题 ， 对 
NFA 来 说 却 很 重要 。 因 为 NFA 引 擎 容许 用 户 进行 精 确 控制 ， 所 以 我 们 可 
以 用 心 打造 〈 译 注 1) 正则 表达 云 ， 但 对 不 熟悉 的 人 来 说 ， 这 样 可 能 会 
市 来 及 烦 。 本 重 讲解 的 驶 是 调 校正 则 表达 却 的 诀 短 。 

调 校 表达 却 时 需要 考虑 的 两 个 因 系 是 准 确 性 和 效率 : 精确 匹配 我 们 
需要 的 文本 ， 不 包 侣 多 余 的 内 容 ， 而 且 速 度 要 快 。 第 4 草 和 第 5 草 探 讨 了 
准 硝 性 ， 现 在 我 们 来 考察 NFEA 引 擎 的 效率 ， 以 及 如 何 有 效 地 利用 这 些 知 
识 〈 我 们 会 在 合适 的 时 候 提 到 DFA 的 问题 ， 不 过 本 章 主 要 关注 的 还 是 基 
于 NFA 的 引擎 ) 。 总 的 来 说 ， 天 键 在 于 彻 展 理解 回溯 育 后 的 过 程 ， 学 
习 些 技巧 来 避免 可 能 的 回 湖 。 在 深入 了 解 了 处 理 机 制 的 细 而 之 后 ， 谈 者 
不 但 能 够 把 匹配 的 速度 所 到 最 品 ， 写 更 复 洒 的 正则 表达 式 时 也 会 更 有 信 
心 。 

AN Ft A 

A Sib a WR SEA, ABET SBR RPE, PA 
Ja EIEN RN J LRE HE APE AE AD EH, BE id SC [| SH Op AE FS VE AE AI se A , 
ZY 8 te TSG Eo ARIA Es A eB OC te 
它们 可 能 对 效率 有 相当 程度 的 实质 性 影响 ， 还 要 讲解 ， 针 对 有 共 体 实现 方 
式 ， 如 何 构建 最 合适 的 正则 表达 式 。 最 后 ， 我 会 做 个 总 结 ， 传 授 一 些 终 
极 技 巧 ， 来 构建 快 如 雷霆 的 NFA 表 达 式 。 

isk STL 

我 们 将 看 到 的 例子 代表 了 使 用 正则 表达 式 时 经 第 壳 到 的 情况 。 在 分 
析 东 个 的 正则 表达 式 的 效率 时 ， 我 有 时 会 列 出 正则 引擎 在 匹配 过 程 中 进 
行 的 独立 测试 (individual test) 的 次 数 。 如 末 用 正则 表达 云 marty 匹配 
smarty， 一 共 会 进行 6 次 独立 测试 ， 自 先是 'm 对 s LERO ， 然 后 是 
m Xfm, ‘a 对 a， 依 次 继续 。 我 通 币 会 给 出 回溯 的 次数 《本 例 中 同调 次 
数 为 0， 不 过 ， 正 则 引擎 的 传动 痛 置 必然 会 在 第 二 个 字符 处 重 斌 正则 表 
达 却 ， 这 或 许可 以 算 作 一 次 回溯 ) 

之 所 以 要 列 出 这 些 数 字 ， 并 不 是 为 表明 精确 性 ， 而 是 因为 它们 
比 * 许 多 ”“ 人 少量“ 多 次 “更 好 ”“ 不 太 多 ”之 类 更 为 惟 硝 。 我 的 意 


四 不 是 说 ， 在 NFA 上 使 用 正则 表达 式 需 要 精确 地 考察 训 试 和 回调 的 次 
数 ， 我 只 是 希望 让 读者 知道 这 些 例子 的 相对 优 劣 。 

另 一 个 重要 的 问题 是 ， 你 必须 意识 到 这 些 “ 精 确 ” 的 数字 可 能 根据 工 
其 的 不 同 而 有 所 不 同 。 我 期 望 读者 能 够 知道 ， 它 只 是 针对 其 体例 子 的 、 
相对 的 粗略 表现 。 不 同 工 其 之 间 的 一 个 重要 区 别 束 是 ， 它 们 可 能 使 用 的 
优化 措施 不 同 。 如 果 能 够 预先 判断 目标 字符 串 基 本 无 法 匹配 《例如 目标 
字符 串 缺 少 一 个 引擎 能 够 预知 的 ， 匹 配 成 功 必须 的 字符 〉， 足 够 聪明 的 
实现 方式 可 以 完全 不 应 用 正则 表达 式 。 我 在 本 章 讨 论 了 这 些 重要 的 优化 
措施 ， 不 过 普遍 原理 比 具体 问题 更 为 重要 。 

传统 型 NFA 还 是 POSIX NFA 

在 分 析 效 计时 ， 一 定 不 要 和 起 记 所 使 用 工具 的 引擎 类 型 : 传统 型 NFA 
还 是 POSIX NFA。 下 一 节 中 我 们 会 看 到 ， 有 些 问 题 只 对 霖 种 引擎 存在 。 
有 的 改变 可 能 对 其 中 之 一 没有 影响 ， 对 另 一 个 却 有 极 大 的 影响 。 还 是 那 
句 话 ， 理 解 基本 原理 ， 就 能 应 付 各 种 情况 。 


典型 示例 


A Sobering Example 

自 先 来 看 一 个 真正 体现 回 沛 和 效率 的 重要 性 的 例子 。 在 198 页 ， 我 
们 用 '"” OAVI 和 AN "]》 光 ”来 匹配 引号 字符 串 ， 其 中 容许 出 现 转 义 的 双 
引号 。 这 个 表达 却 没 有 钳 ， 但 如 采 我 们 使 用 NEFA 引 擎 ， 对 每 个 字符 都 应 
用 多 选 结 构 的 效率 束 会 很 低 。 对 字符 串 中 每 个 “正常 ”( 非 转 义 、 非 可 
H) 的 字符 来 说 ， 这 个 引擎 需要 测试 \. ， 遇 到 失败 后 回 斋 ， 了 最 终 由 
[AN "] 匹配 。 如 果 效 率 不 容 忽视 ， 吏 应 该 做 些 改 动 来 加 快 匹配 速度 。 


和 加 修改 一 一 先 到 最 好 使 的 腿 


A Simple Change—Placing Your Best Foot Forward 

APF A S| SFER, ESF SY 2 ee ES PF ER 
SF FL Bt re Ved HRP TS EP 5c AIA, FETA" BBY. 之 
Ho ORE, JAA TERS BIE AE AB FS CEI A RRR E ANET IB 
WH CRA TR BBE ABS TCE VE AC S| EA, ECE rr E oP 3c ABV AE 
失败 ， 所 以 整个 多 选 结构 无 法 匹配 ) 。 图 6-1 说 明了 其 中 的 差异 。 箭 头 
数量 的 减少 ， 说 明 第 一 个 多 选 分 文 的 成 功 匹 配 次 数 增 加 了 ， 世 束 生 说 回 
BALK BUD J o 


正则 表达 式 


"(| CMON) *" 2 li 3 likeness" 
of 


44 4 Ad ddd dda” | 


W Dk 





f 多 选 结构 回溯 发 生 的 位 置 


图 6-1:， 多 选 分 支 排 列 顺序 的 影响 传统 型 NFA) 
请 从 下 面 几 个 方面 评价 这 个 修改 : 
el 那 种 引 区 从 中 获 益 ?传统 型 NFA， 或 者 POSIX NFA, REWE? 


e 什 么 情况 下 ， 这 种 修改 市 来 的 收 荔 最 大 ? 在 文本 能 够 匹配 时 ， 无 
法 匹配 时 ， 还 是 所 有 时 候 。 

O WE sxe a, ME Rae. EMER TU, & 
DEERE SS CRRA) 。 


效率 vs 准确 性 


Efficiency Versus Correctness 

为 提高 效率 修改 正则 表达 陈 时 最 需要 考虑 的 问题 是 ， 改 动 是 合 会 影 
吧 匹 配 的 准确 性 。 像 上 面 那样 重新 安排 多 选 分 文 的 顺序 ， 只 有 在 排序 与 
匹配 成 功 无 关 时 才 不 会 影响 准确 性 。 前 一 章 出 现 的 , "CNI[A"]) x" 
($197) 的 例子 是 有 缺陷 上 的。 如 果 正 则 表达 陈 只 需要 Cshould) MH 
于 格式 正确 的 字符 串 ， 此 问题 永远 也 不 会 暴露 出 来 。 如 果 认 为 这 个 表达 
SRAM, CLOW Ate i SCR, BATS SI IEA I) a. ACHR We 
aye, FETA" | 放 在 前 面 ， 避 免 表 达 式 进行 不 正确 的 匹配 ， 如 果 目 标 字 
从 串 包 含 一 个 转 义 的 双 引 号 : 


稍 加 改动 的 效果 
5 223 页 问题 的 答案 
哪 种 引擎 从 中 获 益 ?这 种 改动 对 POSIX NFA 没有 影响 ， bedi 


式 的 每 一 种 可 能 ， 多 选 分 支 的 顺序 其 实 不 重要 。 Hit, HAW NFA AW, HR 
速度 的 多 选 四 支 重 排序 是 有 利 的 因为 引擎 一 旦 找到 匹配 结果 就 会 停 下 来 。 

什么 样 的 情况 下 会 有 效果 ?只 有 匹配 成 功 时 才 会 加 快速 度 ,只 有 在 尝试 所 有 的 可 能 (再 
说 一 次 ，POSIX NFA 任何 情况 下 都 会 尝试 所 有 可 能 ) 之 后 ，NFA 才 可 能 失败 。 所 以 如 
果 确 实 不 能 匹配 ， 每 种 可 能 部 会 被 尝试 ， 所 以 排列 顺序 没有 影响 

下 表 列 出 了 若干 种 情况 下 所 进行 的 测试 和 回溯 的 次 数 (数字 越 小 越 好 ) - 


| Tet) RPRARIRIEA 
测试 ”回溯 
"2\"x3\" likeness" |32 


"makudonarudo" 28 


"very 99 more chars 118 
Bime 


TT e a one 


我 们 发 现 ， 两 个 表达 式 在 POSIX NFA 中 的 情况 是 一 样 的 ， 而 修改 之 后 ， 传 统 型 NFA 
的 表现 提升 了 (减少 了 回溯 ) 。 而 在 不 能 匹配 的 情况 下 (最 后 一 行 )， 因 为 两 种 引 掌 必 
须 尝试 所 有 的 可 能 ， 结 果 就 是 一 样 的 











"You need a 2\"3\" photo." 
MA, TESST RR ATEN ie, JIA a is WEEE 
Ak 23 Fl] EPR thil VL Ac 00 7G AY EF Yt l 


Advancing Further—Localizing the Greediness 


从 图 6-1 可 以 看 出 ， 在 任意 正则 表达 却 中 ， 星 号 会 对 每 个 普通 字符 


进行 运作 (或 者 说 “重复 ”) ， 重 复 进 入 -退出 多 选 结构 〈 和 括号 ) 。 

需要 成 本 ， 也 就 是 额外 的 处 理 一 如 朱 可 能 ， 我 们 必须 避免 这 些 额外 处 
je 

有 一 次 ， 在 处 理 这 类 正则 表达 式 时 ， 我 想到 一 个 优化 的 办 法 ， 考 虑 
AA" ] DOC” GES, SERRE) 的 情况 ， 使 用 '[ 和 八 " ]+ 会 
Æ C...) 大 的 一 次 迭代 中 读 入 尽 可 能 多 的 字符 。 对 没有 转 义 字符 的 字符 
串 来 说 ， 这 样 会 一 次 谈 入 整个 字符 串 。 于 是 吏 几 乎 不 会 进行 回调 ， 也 吏 
把 星 号 欠 代 的 次 数 减 少 到 最 小 。 我 很 为 目 己 的 发 现 而 高 兴 。 

我 们 会 在 本 章 更 深入 地 考察 这 个 例子 ， 不 过 看 一 眼 统计 数据 会 清楚 
地 发 现 好 处 。 图 6-2 展 示 了 传统 型 NFA 上 应 用 这 个 例子 的 情况 。 比 较 原 
KA" OVI" D 大 "上面 的 两 个 表达 式 ) ， 与 多 选 结构 相关 的 
a) AA eS TATRA SS. RTPA IPA, SGA A BE tx 
巧 ， 这 种 修改 会 融 来 更 多 的 收益 


正则 表达 式 


Yan 2 likeness" 
E PT PEPE PPE | 


S RE | pa" \\)+)* .| 


f 多 选 结构 回溯 发 生 的 位 置 





图 6-2， 添 加 加 号 的 结果 (传统 型 NFA) 
狐 增 的 加 写 大 大 减少 了 多 选 结构 回溯 的 次 数 ， 以 及 星 瑟 的 达 代 钦 
数 。 星 与 量词 作用 于 括 写 内 的 于 表达 式 ， 每 次 达 代 部 需要 进入 然后 再 退 
出 括号 ， 这 都 需要 成 本 ， 因 为 引擎 需要 记录 括号 内 的 于 表达 却 匹 配 的 文 


本 〈 本 章 会 深入 探讨 此 问题 ) 。 
表 6-1 与 第 224 页 答案 中 的 表格 类 似 ， 不 过 表达 式 不 同 ， 男 外 还 给 出 
了 星 吕 的 友 代 次 数 。 在 每 种 情况 下 ， 独 立 训话 次 数 和 回 亢 次 数 的 增加 都 
很 有 限 ， 但 是 迭代 次 数 有 了 显著 降低 ， 这 是 很 大 的 进步 。 
表 6-1: 传统 型 NFA 的 匹配 效率 

















| "2\"x3\" likeness" se 25 
"very...99 more chars...long" gate te 2 
实测 
Reality Check 


ER, FOE CW AGUA. HANA OR Ea ea”? A 
过 是 场 还 未 爆发 的 灾难 。 你 可 能 注意 到 了 ， 在 考察 它 的 各 项 指标 时 ， 我 
WO OA S: 如 果 这 样 做 ， 你 可 能 会 很 惊奇 地 发 现 


"Very* ii Long n 的 匹配 需要 超过 3 亿 亿 亿 次 (实际 上 是 324 518 553 
658 426 726 783 156 020 576 256) 回溯 。 说 简单 点 就 是 ， 回 漳 是 个 天 文 
a eens Ee Mma 

( 注 1) 。 

确实 很 出 乎 意料 ! 那么 ， 为 什么 会 发 生 这 种 情况 呢 ? 简单 地 说 ， 原 
因 在 于 一 一 这 个 正则 表达 式 中 某 个 元 际 妥 加 号 限定 的 同时 ， 还 受 括 号 外 
的 星 号 限定 ， 无 法 区 分 哪个 量词 控制 哪个 特殊 的 字符 。 这 种 不 确定 性 就 
是 症结 。 下 一 市 给 出 了 详细 解释 。 

“fa a Ae” VL AC 

KARINA SIN, TA\"] ZB SHARIR, BIEN CA\" DD 
a hae E ig on i A se 

， 如 此 继续 ， 节 多 融和 赴 匹配 目标 文本 中 的 每 个 字符 。 它 也 可 能 无 法 匹 
可 目标 字 符 串 中 的 所 有 字符 ， 不 过 ， 充 其 量 ， 匹 配 字 符 的 个 数 与 目标 字 
符 串 的 长 上 度 成 线性 关系 。 目 标 字 符 串 起 长， 可 能 的 工作 量 相 对 也 越 大 。 

但 是 ， 对 正则 表达 式 的 ' [AN "]+) x 来 说 ， 加 号 和 星 号 二 者 分 割 
(divvy up) FATER EEE RTE BUP ASE ISH 如 采 目 标 字 人 符 串 是 
makudonarudo, 7272 SRRI, BE TRIK ANH A" J+ 匹配 一 个 字 


符 〔 就 像 这 样 909995353399 ) ? 还 是 星 号 迭代 3 次 ， 内 部 的 ITAN， ]+ 
分 别 匹配 5、3、4 个 字符 〈 四 X92335259 +) ?或 者 2、2、5、3 个 
字符 maEodonaadg ,) ? 还 是 其 他 

你 现在 知道 ， 存 在 许多 种 可 能 〈 对 长 度 为 12 的 字符 串 存 在 4 0967} 
可 能 ) 。 了 字符 串 中 的 每 个 字符 ， 都 存在 两 种 可 能 ，POSIX NFA 在 给 出 结 
果 之 前 必须 笠 试 所 有 可 能 。 这 束 是 “指数 级 匹配 ”的 来 历 。 我 还 昕 谨 过 一 
个 不 错 的 名 字 :“ 超 线性 (super-linear) ”。 

无 论 叫 什么 名 字 ， 终 归 都 是 回 湖 ， 大 量 的 回溯 〈 注 2) ! 12 个 字符 
需要 4 096 种 可 能 ， 这 可 能 不 需要 多 久 时 间 ， 不 过 20 个 字符 需要 超过 一 
百 万 种 可 能 ， 时 间 长 达 寿 干 秒 。30 个 字符 ， 束 需要 超过 十 亿 种 可 能 ， 长 
—— a 如 果 是 40 个 字符 ， 束 需要 一 年 多 的 时 间 。 这 显然 不 是 什么 
TIHA o 

你 可 能 会 想 ,，“ 没 关系，POSIX NFA 并 不 常见 。 我 知道 我 的 工具 用 
的 是 传统 型 NFA， 所 以 这 问题 对 我 不 存在 。” 的 确 ，POSIX NFA 和 和 传统 
型 NFA 的 主要 差别 在 于 ， 传 统 型 NFA 在 遇 到 第 一 个 完整 匹配 可 能 时 会 停 
止 。 如 果 没 有 完 上 整风 配 ， 即 使 是 传统 型 NFA 也 需要 壬 试 所 有 的 可 能 ， 在 
找到 之 前 。 即 使 是 前 面 提 到 的 " No\" match\" .here 这 样 短 短 的 字符 
串 ， 在 报告 失败 之 前 ， 也 需要 党 试 8 192 种 可 能 。 

在 正则 引擎 忙于 和 演 斌 这些 数量 庞大 的 可 能 时 ， 整 个 程序 看 起 来 好 
aE Cock up) ”了 。 我 第 一 次 过 到 这 种 情况 时 ， 以 为 目 己 发 现 了 程 
序 的 bug， 不 过 现在 我 理解 了 ， 现 在 我 把 这 个 正则 表达 式 加 入 目 己 的 正 
则 表达 式 工 具 包 里 ， 用 来 测试 引 敬 的 类 型 。 

e 如 采 其 中 的 有 过 个 表达 式 ， 即 使 不 能 匹配 ， 也 能 很 局 给 出 结果 ， 那 
可 能 束 是 DFA。 

e 如 果 只 有 在 能 够 岂 配 时 才 很 快 出 结果 ， 那 束 是 传统 型 NFA。 

e 如 果 忆 是 很 慢 ， 那 刺 古 POSIX NFA. 

第 一 个 判断 中 我 使 用 了 “可 能 ”这 个 单词 ， 因 为 经 过 高 级 优化 的 NFA 
没准 能 检测 并 且 避 人 免 这 些 指 数 级 的 无 体 止 (neverending) 匹配 〈 详 见 本 
Be C250) 。 同 样 ， 我 们 会 见 到 各 种 方法 来 改进 或 重 写 这 些 表 达 
式 ， 加 快 它 们 匹配 或 报错 的 速度 。 

前 面 列 出 的 几 点 表明 ， 如 果 排 除 茶 些 高 级 优化 的 影响 ， 殉 能 根据 正 
则 表达 式 的 相对 性 能 判断 引 苟 的 类 型 。 这 就 是 第 4 章 中 〈( 守 146) 我 们 能 
用 某 些 正则 表达 式 来 “测试 引 敬 的 类 型 * 的 原因 。 

当然 ， 不 是 每 点 改动 都 会 市 来 像 本 例 一 样 的 灾难 性 后 果 ， 不 过 除非 


知道 正则 表达 却 的 医 后 原理 ， 人 否则 在 实际 运行 乙 前 永远 不 能 判断 后 末 。 
为 此 ， 本 革 考 察 了 各 种 例子 的 效率 和 后 果 。 不 过 ， 对 许多 事 来 襄 ， 牢 回 
理解 基本 概念 对 深入 学 习 征 非常 重要 的 : 所 以 ， 在 讲解 指数 级 匹配 之 

Ho RIAIT HAR E A A 


E H A SS LL 


A Global View of Backtracking 

从 局 部 来 看 ， 回 调 融 是 倒退 全 未 符 试 的 分 文 。 这 很 容易 理解 ， 但 坪 
回溯 对 整个 匹配 影响 并 不 容易 理解 。 在 本 节 ， 我 们 会 详细 考察 回溯 在 匹 
配 成 功 和 不 成 功 时 的 各 种 细 和 ， 符 弃 从 中 有 友 据 出 一 些 东 西 。 

完 来 仔细 看 看 前 一 半 的 几 个 例子 ， 在 165 页 ， 我 们 把 '" .大 ”应 用 
到 下 向 的 文本 : 

The name "McDonald's " is said " makudonarudo " in Japanese 

匹配 过 程 如 图 6-3 所 示 。 

正则 和 表达 式 会 从 字符 串 的 起 始 位 置 开 始 依次 答 试 每 个 字符 ， 但 是 因 
为 开头 的 引号 无 法 匹配 ， 此 后 的 字符 也 不 能 匹配 ， 下 到 笑 试 进行 到 标记 
位 置 ”A。 接 看 答 试 表达 去 的 其 他 部 分 ， 但 是 传动 猴 轩 《本 148) 知道 如 
东 这 种 符 试 不 成 功 ， 整 个 表达 去 可 以 从 下 一 个 位 置 开 始 答 试 。 

然后 '. 湾 还 配 直 到 字符 串 末 尾 ， 此 时 点 写 无 法 风 配 ， 所 以 星 写 停止 
迭代 。 因 为 '. 大 匹配 成 功 可 以 不 需要 任何 字 特 ， 所 以 在 此 过 程 中 引擎 记 
录 了 46 个 状态 供 回 调 。 现 在 .类 ,停止 了 ， 引 人 擎 从 最 后 保存 的 状态 开始 回 


“anise ” L 
W, TE * 处 开始 尝试 “ 于 。 
也 驶 是 说 ， 我 们 在 字符 串 的 末尾 答 试 匹配 表示 结束 的 双 引 号 。 不 
过 ， 在 这 里 双 引 号 同样 无 法 匹配 ， 所 以 答 试 仍然 失败 。 然 后 引擎 继续 回 
洲 、 笑 试 ， 结 果 同 样 古 无 法 匹配 。 


正则 表达 式 ， 4. #4 -e ERFIR 
AHS, MRAN 
一 一 > 正则 表 这 式 元 素 成 功 区 配 约 文本 


The name aa is said "makudonarudo" in Japanese 


仅 针对 POSIX NFA 





图 6.3 " .大 "的 成 功 匹 配 过 程 | 
引擎 倒 过 来 尝试 (最 后 保存 的 状态 排 在 最 先 ) 从 A 到 B 保 存 的 状 
态 ， 首 先是 从 B 到 C。 在 进行 了 多 次 尝试 之 后 到 达 这 个 状态 正则 表达 
L ‘-arudo " . oly = 
式 中 的 “”。! 对 应 字符 串 中 的 do." .in.Japa...， 也 就 是 C 所 标注 的 
位 置 。 此 时 匹配 成 功 ， 于 是 我 们 在 D 位 置 得 到 全 局 匹配 。 


The name "McDonald’s" is said "Makudonarudo", in Japanese 


He Te STALNFA IDL ACE, FP ACEC BSE IRR 
匹配 成 功 。 





POSIX NFA 需 要 更 多 人 处理 


More Work for a POSIX NFA 

我 们 已 经 介绍 过 ，POSIX NEFA 的 匹配 是 “到 目前 为 止 最 长 的 匹配 ” 
但 是 仍然 需要 尝试 所 有 保存 的 状态 ， 确 认 是 含 存在 更 长 的 匹配 。 我 们 知 
a 第 一 次 找到 的 匹配 束 是 最 长 的 ， 但 正则 引擎 需要 确认 
IA Ki 0 

所 以 ， 在 保存 的 所 有 状态 中 ， 除 了 两 个 能 够 匹配 双 引 喜 的 可 能 之 
外 ， 其 他 都 会 在 答 试 后 立即 被 放弃 。 所 以 ， 答 试 过 程 D-E-F 和 F-G-H 关 
似 B-C-D， 只 古 F 和 也 会 被 放弃 ， 因 为 它们 匹配 的 文本 比 D 的 要 短 。 


在 I 位 置 能 进行 的 回 滑 是 “局 动 驱动 过 程 ， 进 行 下 一 轮 答 试 bump- 
along and retry) ”。 不 过 ， 因 为 从 A 位 置 开 始 的 答 试 能 够 找到 匹配 〈 实 
际 上 是 三 个 ) ，POSIX NFA 引 擎 最 终 仓 下 来 ， 报 告 在 D 位 置 的 匹配 。 


无 法 匹配 时 必须 进行 的 工作 


Work Required During a Non-Match 

我 们 还 需要 分 析 无 法 匹配 时 的 情况 。 我 们 知道 " .类 "”! 无 法 匹配 
范例 文本 ， 但 是 它 在 匹配 过 程 中 仍然 会 进行 许多 工作 。 我 们 将 会 看 到 ， 
工作 量 增 大 了 许多 。 

几 6-4 说 明了 这 些 。A-[I 序 列 类 似 图 6-3。 区 别 在 于 ， 在 位 置 D 无 法 匹 
At (AAS RNS) 。 另 一 点 区 列 在 于 ， 图 6-4 中 的 整个 党 试 序 列 是 
传统 型 NFA 和 POSIX NFA 都 必须 经 历 的 : 如 果 无 法 匹配 ， 传 统 型 NFA 必 
须 进行 的 尝试 与 POSIX NFA 一 样 多 。 


… 尝试 并 匹配 失败 
i 回溯 并 尝试 ， 匹 配 失败 
一 一 > 正则 表达 式 元 素 成 功 区 配 的 文本 


ERAR ML 


The name "McDonald's" is said "makudonarudo" in Japanese 





图 6-4: ("ke " ! ,匹配 失败 的 经 过 

因为 从 开始 的 A 到 结束 的 I 的 所 有 壬 试 都 不 存在 匹配 ， 传 动 装置 必须 
局 动 驱 动 过 程 开 始 新 一 轮 尝 试 。 从 J、Q、V 开 始 的 笠 试 看 来 有 可 能 思 配 
成 功 ， 但 结果 都 与 从 A 开 始 的 答 斌 一样。 了 最 终 到 Y， 不 存在 继续 答 试 的 
途径 ， 所 以 整个 答 试 宣告 失败 。 如 图 6-4 所 示 ， 得 到 这 个 结果 人 花 避 了 许 


PL 


Being More Specific 

BANTER Ss PR BGA" ] KAANE. UU ART, REZ 
朱 和 更 容易 理解 ， 因 为 它 能 匹配 的 字符 更 少 ， 而 且 这 样 一 来 ， 正 则 表达 去 
的 效率 也 提 融 了 。 如 下 使 用 和 "I" "EFA" EREA eat 
不 能 包括 双 引 号 ， 减 少 了 匹配 和 回调 。 

图 6-5 说 明了 笑 试 失败 的 过 程 ( 请 对 比 图 6-4) 。 从 图 中 可 以 看 到 ， 
回 济 的 次 数 大 大 减少 了 。 如 末 这 个 结果 满足 我 们 的 需要 ， 减 少 的 回 济 束 
征 有 益 的 伴随 效应 〈side effect) 。 





eneee RTT, MERK 
> 正则 表达 陈 元 素 成 功 匹 配 的 文本 


The name "McDonald’s" is said "makudonarudo" in Japanese 


图 6-5; [on [A " 1x ny 无 法 匹配 


多 选 结构 的 代价 很 高 


Alternation Can Be Expensive 
B oe 26 PA BOF ve FET EEA. 2 a EB, H 
makudonarudo 来 比较 |vjw|x|y|z, 和 [uvwxyz] 的 匹配 。 字 符 组 一 般 只 是 


进行 简单 测试 〈 注 3) ， 所 以 '[uvwxyz] 只 需要 进行 34 次 尝试 就 能 匹配 。 
The name "McDonald's" is said "makudonarudo" in Japanese 


如 果 使 用 ulviwl|xly|z, ， 则 需要 在 每 个 位 置 进行 6 次 回调 ， 在 得 到 同 
样 结果 之 前 总 共有 204 次 回调 。 当 然 ， 并 不 是 每 个 多 选 结构 都 可 以 蔡 换 
为 字符 组 ， 即 使 可 以 ， 也 不 见得 会 这 么 简单 。 不 过 ， 在 某 些 情况 下 ， 我 
们 将 要 学 习 的 技巧 能 够 大 大 减少 与 匹配 所 须 的 多 选 结构 相关 的 回调 。 

理解 回溯 可 能 是 学 习 NFA 效 率 中 最 重要 的 问题 ， 但 所 有 的 问题 不 只 
于 此 。 正 则 引擎 的 优化 措施 能 够 大 大 提升 效 挛 。 在 本 章 后 面 ， 我 们 将 详 
细 考 察 正 则 引擎 要 做 的 工作 和 优化 手段 。 


性 能 测试 


Benchmarking 

本 和 章 主 要 讲解 速度 和 效率 ， 而 且 会 时 利 使 用 性 能 测试 ， 所 以 我 希望 
介绍 一 些 测 斌 的 原则 。 我 会 用 几 种 语言 来 介绍 徐 单 的 测试 方法 。 

基本 的 性 能 测试 束 是 记录 程序 运行 的 时 间 : 先 取 系统 时 | 间 ， 运 行程 
序 ， 册 取 系 统 时 间 ， 计 算 两 者 的 震 ， 束 是 程序 运行 的 时 间 。 举 个 例子 ， 
比较 和 《alblcldlelflg) +$, 和 中 [a-g]+$ 。 移 来 看 Perl 的 表现 ， 然 后 再 来 看 
a 
RER) : 


use Time::HiRes 'time'; # 这 样 time () 的 返回 值 更 加 精确 

SStartTime = time(); 

"abababdedfg" =~ m/*(alb|c|dle|flg)+$/; 

SEndTime = time(); 

printf ("Alternation takes %.3f seconds.\n", SEndTime - S$StartTime) ; 


SStartTime = time(); 
"abababdedfg" =~ m/*[a-g]+$/; 
SEndTime = time(); 
printf ("Character class takes %.3f seconds.\n", S$EndTime - $StartTime) ; 
它 看 来 “而 且 也 确实 是 ) 很 徐 单 ， 但 是 在 进行 性 能 训 试 时 ， 我 们 需 
BE) LA: 
e 只 记录 “真正 关心 的 Cinteresting) ”处 理 时 间 。 尽 可 能 准确 地 记 
录 “ 处 理 ? 时 间 ， 尽 可 能 避免 “ 非 处 理 时 间 ” 的 影响 。 如 果 在 开始 前 必须 进 
行 初 始 化 或 其 他 准备 工作 ， 请 在 它们 完成 之 后 开始 计时 ;如果 需要 收尾 
工作 ， 请 在 计时 停止 之 后 进行 这 些 工 作 。 
e 进 行 “ 正 够 多 ”的 处 理 。 通 第 ， 测 试 需要 的 时 间 征 相当 短 秋 的 ， 而 
计算 机 时 钟 的 单位 精度 不 够 ， 无 法 给 出 有 意义 的 数值。 
在 我 的 机 右上 运行 这 个 Perl 程 序 ， 结 果 古 : 
Alternation takes 0.000 seconds. 
Character class takes 0.000 seconds. 
我 们 只 能 知道 ， 这 段 程 序 所 需 的 时 间 比 计算 机 能 够 测量 的 最 短 时 间 
还 要 短 。 所 以 ， 如 有 果 程 序 运行 的 时 间 太 短 ， 融 运行 两 次 、 十 识 ， 甚 至 一 
于 万 次 ， 来 保证 “足够 多 ”的 工作 。 这 里 的 “足够 多 ”取决 于 系统 时 钟 的 精 
度 ， 大 多 数 系统 能 够 精确 到 1l/100s， 这 样 ， 即 使 程序 只 需要 0.5s， 也 能 


取得 有 意义 的 结 采 。 

e 进 行 “准确 的 处理。 进行 1 000 万 次 快速 操作 十 要 在 负 贡 计时 的 代 
人 码 块 中 升级 1 ”000 万 次 计数 融 。 如 果 可 能 ， 最 好 的 办 法 是 增加 真正 的 处 
理 部 分 的 比例 ， 而 不 增加 额外 的 开销 。 在 Perl 的 例子 中 ， 正 则 表达 式 应 
用 的 文本 相当 短 : 如 条 应 用 到 长 得 多 的 字符 串 ， 在 每 次 循环 中 所 作 
的 “真正 的 ?处 理 也 会 多 一 些 。 

考虑 到 这 些 因 系 ， 我 们 可 以 得 出 下 面 的 程序 : 


use Time::HiRes 'time'; # 这 样 time () 的 返回 值 更 加 精确 
STimesToDo = 1000; t KRERRKEK 
STestString = "“abababdedfg" x 1000; # 生成 长 字符 串 


sCount = $TimesToDo; 
SStartTime = time(); 
while (SCount-- > 0) { 
STestString =~ m/*(alb|c|dlel|lf£|g)+$/; 
SEndTime = time(); 
printf ("Alternation takes %.3f seconds.\n", SEndTime - $StartTime) ; 


sCount = $TimesToDo; 
SStartTime = time(); 
while (SCount-- > 0) { 
STestString =~ m/*[a-g]+$/; 
| 
SEndTime = time(); 
printf ("Character class takes %.3f seconds.\n", SEndTime - $StartTime) ; 


请 注意 ，$TestString 和 $Count 的 初始 化 在 计时 开始 之 前 
($TestString 使 用 了 Per 提供 的 x 操作 和 从 进行 初始 化 ， 它 表示 将 左边 的 
字符 串 重 复 右 边 的 次 数 ) 。 在 我 的 机 需 上 ， 使 用 Perl5.8 运 行 的 结 采 古 : 

Alternation takes 7.276 seconds. 
Character class takes 0.333 seconds. 


FTA, PS PIP ORL, Beh BAR 2 1 Ac Go aa 
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理解 测量 对 象 


Know What You're Measuring 


我 们 把 初始 化 程序 更 改 为 下 和 面 这 样 ， 会 得 到 更 有 意思 的 结 


STimesToDo = 1000000; 
STestString = “abababdedfg"; 

现在 ， 测 试 字符 串 只 是 上 面 的 长 度 的 MH1 000, TW isi BEEF 1 
000 次 。 每 个 正则 表达 式 测试 和 匹配 的 字符 总 数 并 没有 变化 ， 因 此 从 理 
论 上 讲 , “工作 量 " 应 该 没有 变化 。 不 过 ， 结 有 末 却 大 不 相同 : 

Alternation takes 18.167 seconds. 
Character class takes 5.231 seconds. 

两 个 时 间 都 比 之 十 的 要 长 。 原 因 是 独 增 的 “ 非 处 理 * 开 销 一 一 对 
— 以 及 建立 正则 引 获 的 时 间 ， 现 在 的 次 数 是 以 前 的 
1 000 倍 。 

对 于 字符 组 测试 来 说 ， 新 增 的 开销 花费 了 大 约 5s 的 时 间 ， 而 多 选 结 
构 则 增加 了 将 近 10 秒 。 为 什么 多 选 结构 测试 的 时 间 变 化 如 此 之 大 ?主要 
是 因为 捕获 型 括 写 (在 每 次 测试 之 前 和 之 后 ， 它 们 都 需要 额外 处 理 ， 这 
样 的 操作 要 多 1 000 倍 ) 。 

无 论 如 何 ， 进 行 这 点 修 改 的 要 点 在 于 说 明 ， 真 正 处 理 部 分 和 非 真 正 
处 理 部 分 在 计时 中 所 占 的 比重 会 强烈 地 影响 到 测试 结果 。 


PHP 测 试 





Benchmarking with PHP 
下 面 是 PHP 的 测试 ， 使 用 preg 引 擎 : 


STimesToDo = 1000; 


/* 准备 测试 字符 事 */ 


STeStstring = "T"; 
for (Si. = OF $1 < T1000% $144) 
STestString .= “abababdedfg"; 


/* 开始 第 一 轮 测 试 */ 
Sstart = gettimeofday (); 
for (Si = Or Si< STimesToDo? $i++) 

preg match('/“(alblclel£lg)+$/', $STestString) ; 
Sfinal = gettimeofday() ; 
Ssec = (Sfinal['sec'] + Sfinal ['usec'|]/1000000) = 

(Sstart['sec'] + Sstart['usec']/1000000); 

printf ("Alternation takes %.3f seconds\n", Ssec) ; 


/* 开始 第 二 轮 测 试 */ 
Sstart = gettimeofday (); 
for (S81 = QF 641 = SifimesTodDor Si} 
preg maten("/“la-g]to/";, STeetetring)? 
Sfinal = gettimeofday () ; 
Ssec = (Sfinal['seo'’] + Sfinal ["usec']/1000000) = 
(Sstart['sec'] + Sstart['usec’ ]/1000000); 
printf ("Character class takes %.3f seconds\n", Ssec) ; 


在 我 的 机 器 上 ， 结 果 是 : 
Alternation takes 27.404 seconds 
Character class takes 0.288 seconds 


如 果 在 测试 中 遇 到 PHP 错 误 “not being safe to rely on the system's 
timezone settings”, SUN RATES: 


if (phpversion() >= 5) 
date default timezone set ("GMT"); 


Java 训 试 


Benchmarking with Java 
因为 菜 些 原因 ， 用 Java 测 试 很 有 讲 完 。 自 和 完 看 个 考虑 不 够 周到 的 例 
子 ， 然 后 请 思考 它 为 什么 考虑 不 周到 ， 应 该 如 何 改 进 : 


import java.util.regex.*; 

public class JavaBenchmark { 

public static void main(String [] args) 

| 
Matcher regexl = Pattern.compllel("^(alblcldaleltlg)+3") .matcher ("") ; 
Matcher regex2 = Pattern.compile("*[a-g]+$") .matcher("") ; 
long timesToDo = 1000; 


StringBuffer temp = new StringBuffer () ; 

for (int 2 = 10007 1 > Us 1==) 
temp.append ("abababdedfg") ; 

String testString = temp.toString(); 


// 第 一 轮 测试 计时 ... 
long count = timesToDo; 
long startTime = System.currentTimeMillis(); 
while (--count > Q) 
regexl.reset (testString) .find(); 
double seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.printin("Alternation takes " + seconds + " seconds"); 


// 第 二 轮 测试 计时 ... 
count = timesToDo; 
StartTime = System.currentTimeMillis(); 
while (--count > 0) 
regex2.reset (testString) .find(); 
seconds = (System.currentTimeMillis() - startTime)/1000.0; 
System.out.println("Character class takes " + seconds + " seconds"); 
} 
} 


你 注意 到 在 这 个 程序 中 正则 表达 式 如 何 初 始 化 部 分 编译 了 吗 ? 我们 
南 要 训 试 的 是 匹配 的 速度 ， 而 不 是 编 详 的 速度 。 
速度 取决 于 所 使 用 的 虚拟 机 CVM) 。Sun 的 标准 JRE 有 两 种 虚拟 
人 
在 我 的 机 器 上 ， 使 用 client VM 运 行 测试 的 结果 如 下 : 
Alternation takes 19.318 seconds 
Character class takes 1.685 seconds 


使 用 server VM 的 结果 如 下 : 


Alternation takes 12.106 seconds 
Character class takes 0.657 seconds 

oe RMA Da. Zarit As Jal, AEF 
的 结果 在 很 大 程度 上 取决 于 目 动 鸭 预 执 行 编 详 项 (automatic pre- 
execution compiler) 的 工作 ， 或 者 说 运行 时 编译 右 (run-time compiler) 
与 测试 代码 的 交互 情况 。 某 些 虚 拟 机 包含 JIT (Just-In-Time 
compiler) ，JII 会 根据 需要 ， 在 需要 执行 代码 之 前 才 进 行 编 详 。 

Java 使 用 了 我 称 为 BLITN (Better-Late-Than-Never) 的 编译 器 ， 在 执 
行 期 间 计 数 ， 对 反复 使 用 的 代 但 根据 再 要 进行 编 详 和 优化 。BLTN 的 性 
质 是 ， 它 只 对 认为 "热门 ”hot， 即 大 量 使 用 ) 的 代码 进行 干预 。 如 林 虚 
拟 机 已 经 运行 了 一 段 时 间 ， 例 如 在 服务 器 环境 中 ， 它 已 经 “ 预 热 ”完毕 ， 
SR a eee (BLTN 没 有 进行 任何 优 

E 
可 以 把 测试 部 分 放 入 一 个 循环 ， 来 观察 “ 预 热 ?现象 : 
/第 一 轮 测 试 计时 .… 

ror {int 1 = 4% 1 > OF I=) 

long count = timesToDo; 

long startTime = System.currentTimeMillis(); 

while (--count > Q) 

regexl.reset (testString) .find(); 
double seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.println("Alternation takes " + seconds + " seconds"); 


DO ATS IEA IST EW TR CEN, 10s) ， BLTN 束 会 优化 热门 代 
码 ， 最 后 一 次 输出 的 时 间 束 代表 了 已 预 热 系统 的 情况 。 骨 座 使 用 server 
VM， 这 些 时 间 确 实 比 之 前 有 了 8% 和 25% 的 提高 。 
Alternation takes 11.151 seconds 
Character class takes 0.483 seconds 


万 一 个 问题 在 于 ， 抽 贡 调 度 GC 线 程 的 工作 是 不 确定 的 。 所 以 ， 进 
行 契 够 长 时 间 的 误 试 能 够 降低 这 些 不 确定 因 系 的 影 啊 。 


VB.NET x 


Benchmarking with VB.NET 
下 面 是 VB.NET 的 测试 程序 : 


Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 


Module Benchmark 
Sub Main () 
Dim Regexl as Regex = New Regex("*(alb|c|dle|f£|g)+$") 
Dim Regex2 as Regex = New Regex("*[a-g]+$") 
Dim TimesToDo as Integer = 1000 
Dim TestString as String = "" 
Dim I as Integer 
For I = 1 to 1000 
TestString = TestString & "abababdedfg" 
Next 


Dim StartTime as Double = Timer () 
For I = 1 to TimesToDo 
Regex1.Match (TestString) 
Next 
Dim Seconds as Double = Math.Round(Timer() - StartTime, 3) 
Console.WriteLine ("Alternation takes " & Seconds & " seconds") 


StartTime = Timer () 
For I = 1 to TimesToDo 
Regex2.Match (TestString) 

Next 

Seconds = Math.Round(Timer() - StartTime, 3) 

Console.WriteLine ("Character class takes " & Seconds & " seconds") 
End Sub 
End Module 


在 我 的 机 上 禹 上 ， 结 末 是 : 


Alternation takes 13.311 seconds 
Character class takes 1.680 seconds 


在 .NET Framework 中 使 用 RegexOptions.Compiled 作 为 正则 表达 式 构 
造 函 数 的 第 2 个 参数 ， 能 够 把 正则 表达 式 编 译 为 效 座 更 局 的 形式 ( 喇 
410) ， 其 结果 为 : 
Alternation takes 5.499 seconds 
Character class takes 1.157 seconds 


使 用 Compiled 功 能 之 后 ， 两 个 测试 的 速度 都 有 所 局 ， 但 是 多 选 结构 


的 相对 上 升幅 度 更 为 明显 《几乎 是 之 前 的 3 倍 ， 而 字符 组 的 程序 只 迫 融 
到 之 前 的 1.5 借 ) ， 所 以 多 选 结构 从 中 获 蔓 更 大 。 


Ruby ix 


Benchmarking with Ruby 
Fe Ruby Ay MAARI: 
TimesToDo=1000 
testString="" 
for L in | ND 
testString += "abababdedfg" 
end 
Regexl = Regexp::new("*(alb|cl|dle|f£ig)+$"); 
Regex2 = Regexp: :new("“[a-g]+$"); 
startTime = Time.new.to f 
for 1 in 1..TimesToDo 
Regexl.match (testString) 
end 
print "Alternation takes %.3f seconds\n" % (Time.new.to f - startTime) ; 
startTime = Time.new.to f 
for 1 in 1..TimesToDo 
Regex2.match (testString) 
end 
print "Character class takes %.3f seconds\n" % (Time.new.to f - startTime) ; 


在 我 的 机 器 上， 结果 如 下 : 


Alternation takes 16.311 seconds 
Character class takes 3.479 seconds 


Python liji 


Benchmarking with Python 
下 面 是 Python 的 测试 代码 ， 


import re 
import time 
import fpformat 
Regexl = re.compile("*(alb|c|dje|f]g)+$") 
Regex2 = re.compile("*[a-g]+$") 
TimesToDo = 1250; 
TestString = "" 
for i in range(800): 
TestString += "abababdedfg" 
StartTime = time.time() 
for 1 in range(TimesToDo) : 
Regexl.search (TestString) 
Seconds = time.time() - StartTime 
print "Alternation takes " + fpformat.fix(Seconds,3) + T seconds" 
StartTime = time.time() 
for 1 in range(TimesToDo) : 
Regex2.search (TestString) 
Seconds = time.time() - StartTime 
print "Character class takes " + fpformat.f1x(Seconds,3) + " seconds" 


因为 Python 的 正则 引擎 设 定 的 限制 ， 我 们 必须 减少 字符 串 的 长 度 ， 
因为 原来 长 度 的 字符 串 会 导致 内 部 销 误 (“maximum recursion limit 
exceeded”) 。 这 种 规定 有 点 像 减 压 阅 ， 它 有 助 于 终止 无 休止 匹配 。 
作为 弥补 ， 我 相应 增加 了 测试 的 次 数 。 在 我 的 机 需 上 ， 测 试 结 末 


ÀJ 
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Alternation takes 10.357 seconds 
Character class takes 0.769 seconds 


Tcl 测 试 


Benchmarking with Tcl 
FAET MCE: 


set TimesToDo 1000 

set TestString "" 

for {set i 1000} {Sa > 0} {iner i =1 4 
append TestString "“abababdedfg" 

} 


set Count STimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {SCeunt > 0} {iner Count -1} 1 
regexp {*(alb|c|dle|flg)+$} STestString 
} 
set EndTime [clock clicks -milliseconds] 
set Seconds [expr (S$EndTime - S$StartTime) /1000.0] 
puts [format "Alternation takes %.3f seconds" S$Seconds] 


set Count STimesToDo 
set StartTime [clock clicks -milliseconds] 
For {} {5€Ceunt > GO} finer Count =1f 1 
regexp {*[a-g]+$} STestString 
} 
set EndTime [clock clicks -milliseconds] 
set Seconds [expr (SEndTime - S$StartTime) /1000.0] 
puts [format "Character class takes %.3f seconds" SSeconds] 


在 我 的 机 右上， 结果 如 下 : 


Alternation takes 0.362 seconds 
Character class takes 0.352 seconds 


神奇 的 是 ， 两 者 速度 相当 。 还 记得 吗 ， 我 们 在 第 145 页 说 过 ，Tal 使 
用 的 是 NFEA/DFA 混 合 引擎， 对 DFA 引 擎 来 说 ， 这 两 个 表达 式 是 没有 区 
aL 本 章 所 举 的 大 部 分 例子 并 不 适用 于 Tc， 详细 信息 请 参考 第 243 


Ts 
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Common Optimizations 

聪明 的 正则 表达 式 实现 (implementation) 有 许多 办 法 来 优化 ， 提 
高 取得 结果 的 速度 。 优 化 通 音 有 两 种 办 法 : 

e 加 速 菏 些 操 作 。 某 些 类 型 的 匹配 ， 例 如 Nd+ , MARL, 5] Sen) 
能 对 此 有 特殊 的 处 理 方 和 案 ， 执 行 速 度 比 通用 的 处 理 机 制 要 快 。 

e 避 人 免 元 余 操 作 。 如 果 引 擎 认为 ， 对 于 产生 正确 结果 来 说 ， 某 些 特 
殊 的 操作 是 不 必要 的 ， 或 者 东 些 操作 能 够 应 用 到 比 之 前 更 少 的 文本 ， 忽 
略 这 些 操作 能 够 节省 时 间 。 例 如 ， 一 个 以 AA ATHA) 开头 的 正则 表 
达 式 只 有 在 字符 串 的 开头 位 置 才 能 匹配 ， 如 果 在 此 处 无 法 匹配 ， 传 动 闭 
置 不 会 徒劳 地 尝试 其 他 位 置 (进行 无 请 的 尝试 )。 

在 下 面 的 十 几 页 中 ， 我 会 讲解 自己 见 过 的 许多 种 不 同 的 天 才 优 化 措 
施 。 没 有 任何 一 种 语言 或 者 工 其 提供 了 所 有 这 些 措 施 ， 或 者 只 是 与 其 他 
语言 和 工具 相同 的 优化 措施 ; 我 也 确信 ， 还 有 许多 我 没 见 过 的 优化 措 
TAR 

EE o 


有 得 必 有 失 


No Free Lunch 

通 第 来 说 优化 能 和 省 时 间 ， 但 并 非 永 远 如 此 。 只 有 在 检测 优化 措施 
古 含 可行 所 需 的 时 间 少 于 节省 下 来 的 匹配 时 间 的 情况 下 ， 优 化 才 是 有 益 
的 。 事 实 上 ， 如 采 引 人 擎 检查 之 后 认为 不 可 能 进行 优化 ， 结 果 总 是 会 更 
慢 ， 因 为 最 开始 的 检查 需要 花费 时 间 。 所 以 ， 在 优化 所 需 的 时 间 ， 节 省 
2 E E 优化 的 可 能 性 之 间 ， 存 在 互相 制约 的 天 

来 看 一 个 例子 。 表 达 式 \b\B 《和 霖 个 位 置 既 是 单词 分 隔 符 又 不 是 单 
Ta Mate) 是 不 可 能 匹配 的 。 如 果 引 擎 用 现 提供 的 表达 式 包含 \b\B Wi 
知道 整个 表达 式 都 无 法 匹配 ， 因 而 不 会 进行 任何 匹配 操作 。 它 会 立刻 报 
告 思 配 失 败 。 如 果 [ 匹 配 的 文本 很 长 ， 厄 省 的 时 间 束 非常 可 观 。 

不 过 ， 我 所 知 的 正则 引擎 都 没有 进行 这 样 的 优化 。 为 什么 ?首先 ， 
很 难 判 断 这 条 规则 是 侣 适用 于 茶 个 特定 的 表达 式 。 东 个 包 舍 NDB, 的 正 
则 表达 式 很 可 能 可 以 匹配 ， 所 以 引 敬 必须 做 一 些 和 额外 的 工作 来 预先 确 





认 。 当 然 ， 节 省 的 时 间 确 实 很 可 观 ， 所 以 如 果 预 计 到 DB 经 常 出 现 ， 
这 样 做 还 是 值得 的 。 
不 幸 的 是 ， 这 并 不 常见 〈 而 且 愚蠢 ) 〈 注 4) ， 虽 然 在 极 少数 情况 
这 样 做 可 以 节省 大 量 的 时 间 ， 但 其 他 情况 下 及 束 度 降低 的 代价 比 这 高 得 


优化 各 有 不 同 


Everyone's Lunch is Different 
在 讲解 各 种 优化 措施 时 ， 请 务必 记 住 一 点 “优化 各 有 不 同 
(everyone’s lunch is different) ”。 虽 然 我 尽量 使 用 简单 清晰 的 名 字 来 命 
名 每 种 措施 ， 但 不 同 的 引擎 必然 可 能 以 不 同 的 方式 来 优化 。 对 某 个 正则 
表达 式 进 行 细微 的 改动 ， 在 菏 个 实现 方式 中 可 能 会 市 来 速度 的 大 幅 提 
升 ， 而 在 为 一 个 实现 方式 中 大 大 降低 速度 。 


正则 表达 式 的 应 用 原理 


The Mechanics of Regex Application 

我 们 必须 先 掌 握 正 则 表达 式 应 用 的 基本 知识 ， 然 后 讲解 先进 系统 的 
优化 原理 及 利用 方式 。 之 前 已 经 了 解 了 回 渭 的 细节 ， 在 本 市 我 们 要 进行 
更 全 面 地 学 习 。 

正则 表达 式 应 用 到 目标 字符 串 的 过 程 大 致 分 为 下 面 儿 步 : 

1. 正则 表达 式 编 译 检查 正则 表达 式 的 语法 正确 性 ， 如 有 果 正 确 ， 束 
将 其 编译 为 内 部 形式 (internal form) 。 
" 2. ”传动 开始 RR EK EN S| E EM” RH EIT R AY A 

3. WAM 引擎 开始 测试 正则 表达 式 和 文本 ， 依 次 测试 正则 表达 
式 的 各 个 元 素 (comp-onent) ， 如 第 4 章 所 说 的 那样 。 我 们 已 经 详细 考 
察 J 了 NEFA 的 回调 ， 但 是 还 有 几 点 需要 补 葛 : 

e 相 连 元 又 ， 例如 ‘Subject, 中 的 ‘Si. u ` Pb 、 J 6@ See, 会 依 
RW: 只 有 当 某 个 元 素 匹 配 失 败 时 才 会 停止 

e 量 词 修饰 的 元 素 ， 控制 权 在 量词 检查 量词 是 否 应 该 继 名 PLH) 
MEIRE Clee AILA) 之 间 轮 换 。 

e 控 制 权 在 捕获 型 括 与 内 外 进行 切换 会 市 来 一 些 开销 。 TS WHIA 
达 式 还 配 的 文本 必须 保留 ， 这 样 才 能 通过 $1 来 引用 。 因 为 一 对 括号 可 能 
属于 地 个 回调 分 文 ， 括 亏 的 状态 束 是 用 于 回调 的 状态 的 一 部 分 ， 所 以 进 


入 和 退出 捕获 型 括号 时 需要 修改 状态 。 

4. 寻找 匹配 结果 如 果 找 到 一 个 匹配 结果 ， 传 统 型 NFA 会 “锁定 ”在 
当前 状态 ， 报 告 匹 配 成 功 。 而 对 POSIX NFA 来 说 ， 如 果 这 个 匹配 是 迄今 
为 止 最 长 的 ， 它 会 记 住 这 个 可 能 的 匹配 ， 然 后 从 可 用 的 保存 状态 继续 下 
去 。 你 存 的 状态 都 测试 完毕 之 后 返回 最 长 的 罗 配 。 

5. 传动 装置 的 驱动 过 程 如 果 没 有 找到 匹配 ， 传 动 装置 就 会 驱动 引 
擎 ， 从 文本 中 的 下 一 个 字符 开始 新 一 轮 的 答 试 〈 回 到 步骤 3) 。 

6. JOACHIM 如 果 从 目标 字符 串 的 每 一 个 字符 《包括 最 后 一 个 
字符 之 后 的 位 置 ) FPR BAM SS, SER VL AC KAM. 
FN 
HET TY o 


应 用 之 前 的 优化 措施 


Pre-Application Optimizations 

优秀 的 正则 引 警 实现 方 式 能 够 在 正则 表达 式 实际 应 用 之 前 就 进行 优 
化 ， 它 有 时 候 甚 至 能 迅速 判断 出 ， 茶 个 正则 表 这 陈 无 论 如 何 也 无 法 匹 
配 ， 所 以 根本 不 必 应 用 这 个 表达 式 。 

编译 缓存 
M 2 和 章 的 E-mail 处 理 程序 中 ， 用 于 处 理 header 各 行 的 主 循环 体 中 是 这 


while (…) { 
if ($line =~ m/*\s*S/ | = 
if ($line =~ m/*Subject: (.*)/)::: 
if (Sline =~ m/*Date: (.x)/)… 
if ($line =~ m/*Reply-To: (N\S+) /) … 
if (line == Mm/ "From: (Vt) VCC OY Vn = 


} 
正则 表达 式 使 用 之 前 要 做 的 第 一 件 事 情 是 进行 错误 检查 ， 如 来 没有 
问题 则 编 详 为 内 部 形式 。 纺 详 之 后 的 内 部 形 陈 能 用 来 检查 各 种 字符 串 ， 
但 是 这 段 程 序 的 情况 如 何 ? 显然 ， 每 次 循环 都 要 重新 编译 所 有 正则 表达 
式 ， 这 很 浪费 时 间 。 相 反 ， 在 第 一 亿 编 详 之 后 束 把 内 部 形式 你 存 或 绥 存 
TE EEE E He 
F) 。 
具体 做 法 取决 于 应 用 程序 提供 的 正则 表达 式 处 理 方式 。93 页 已 经 说 
过 ， 有 3 种 处 理 方式 : 集成 式 、 和 程序 式 和 面 问 对 象 式 。 


集成 陈 处 理 中 的 编 详 缓存 

Perl 和 awk 使 用 的 就 是 集成 式 处 理 方法 ， 非 常 容易 进行 编译 缓存 。 
从 内 部 来 说 ， 每 个 正则 表达 却 都 天 联 到 代码 的 未 一部分， 第 一 次 执行 时 
在 编 详 结 未 与 代 但 之 间 建 立 天 联 ， 下 雇 执 行 时 只 需要 引用 即 可 。 这 样 最 
万 省 时 间 ， 代 价 束 是 需要 一 部 分 内 存 来 你 存 组 仔 的 表达 陈 。 


DFA, Tel 与 手工 调 校正 则 表达 式 


本 章 中 介绍 的 大 部 分 优化 措施 并 不 适用 于 DFA。 第 242 页 介绍 的 编译 线 存 却 运用 于 所 
有 的 引 掌 ， 但 是 本 章 讨 论 的 所 有 手工 调 校 都 不 适用 于 DIA, RAFLARA, LHL 
相等 的 正则 表达 式 thisjthatj 和 th (is|at)J, 对 DFA 来 说 是 等 价 的 , 之 所 以 要 写本 
章 ， 是 因为 它们 对 NFA 来 说 不 相等 。 


那么 使 用 DFA/NFA 混合 引 掌 的 Tel 呢 ? Tel 的 正则 引擎 是 由 正则 表达 式 的 传奇 人 物 


Henry Spencer (788) 为 Tel 专门 开发 的 ， 它 成 功 地 融合 了 DFA 和 NFA 的 优点 。 在 
2000 年 4 月 的 Usenet posting 中 ，Henry 这 样 写 到 ， 
总 的 来 说 ， 己 传统 的 正则 引 掌 相 比 ，Tcl 的 引擎 对 正则 表达 式 的 有 具体 形式 的 敏感 
度 要 低 得 多 。 无 论 正则 表达 式 写 成 怎么 样 ， 该 快 的 就 快 ， 该 慢 的 就 慢 。 传 统 的 正 
则 表达 式 手工 优化 在 这 里 不 适用 ， 
Henry 的 Tel 正则 引 学 是 一 大 进步 。 如 果 其 中 的 技术 流行 开 来 ,本章 的 许多 内 容 就 毫 无 
EXT. 





变量 插值 功能 (variable interpolation， 即 将 变量 的 值 作为 正则 表达 
式 的 一 部 分 ) 可 能 会 给 绥 存 造成 且 烦 。 例 如 对 m/ASubject: -\Q 
$DesiredSubject\E\s * $/K Uk, FFRAE IE WU ZeIA SUA A AY BESS AE 
改变 ， 因 为 它 取 决 于 插值 变量 ， 而 这 个 变量 的 值 可 能 会 变化 。 如 果 每 次 
都 会 不 同 ， 那 么 正则 表达 式 每 次 都 需要 编译 ， 完 全 不 能 里 复 利 用 。 

尺 正 则 表达 式 可 能 每 次 循环 都 会 变化 ， 但 这 并 不 是 说 任何 时 候 都 
需要 重新 编译 。 折 中 的 优化 措施 束 是 检查 插值 后 的 结果 (也 就 是 正则 表 
达 云 的 具体 值 ) ， 只 有 当 上 其 体 值 故 生变 化 时 才 重 新 编译 。 不 过 ， 如 末 变 
a 大 多 数 时 候 束 只 需要 检查 (而 不 需要 编译 ) ， 优 化 效果 
很 明显 。 

程序 陈 处 理 中 的 编 详 绥 存 

在 集成 式 处 理 中 ， 正 则 表达 式 的 使 用 与 其 在 程序 中 所 处 的 其 体位 置 


相关 ， 所 以 再 次 执行 这 段 代 人 码 时 ， 编 详 好 的 正则 表达 式 束 能 够 缓存 和 重 
复 使 用 。 但 是 ， 程 序 式 处 理 中 只 有 通用 的 “应 用 此 表达 陈 ” 的 函 数 。 也 职 
是 说 ， 编 译 形式 并 不 与 程序 的 具体 位 置 相 连 ， 下 次 调用 此 函数 时 ， 正 则 
表达 式 必 须 重 新 编译。 从 理论 上 来 说 束 是 如 此 ， 但 是 在 实际 应 用 中 ， 禁 

笑 试 缓存 的 效 座 无 疑 很 低 。 相 反 ， 优 化 通常 是 把 最 近 使 用 的 正则 表达 
IRIN (regex pattern) 保存 下 来 ， 关 联 到 最 终 的 编 详 形 却 。 

调用 “应 用 此 表达 去” 函数 之 后 ， 作 为 参数 的 正则 表达 却 模 陈 会 与 保 
存 的 正则 表达 式 相 比较 ， 如 果 存 在 于 绥 存 中 ， 束 使 用 缓存 的 版 本 。 如 果 
没有 ， 束 直接 编译 这 个 正则 表达 式 ， 将 其 存 入 绥 存 (如 果 绥 存 有 容量 限 
制 ， 可 能 会 丛 换 一 个 旧 的 表达 式 ) 。 如 果 绥 存 用 完了 ， 束 必须 放弃 
(thrown out) 一 个 编译 形式 ， 通 党 是 最 久未 使 用 的 那个 。 

GNU Emacs 的 绥 存 能 够 保存 最 多 20 个 正则 表达 式 ，Tcl 能 你 和 存 30 
个 。PHP 能 保存 四 于 多 个 。.NET Framework 在 默认 情况 下 能 保存 15 个 表 
达 式 ， 不 过 数量 可 以 动态 设置 ， 也 可 以 禁止 此 功能 (5432) 。 

绥 存 的 大 小 很 午 要 ， 因 为 如 果 绥 和 存 装 个 下 循环 中 用 到 的 所 有 正则 表 
达 云 ， 在 循环 重新 开始 时 ， 了 最 开始 的 正则 表达 陈 会 被 清除 出 缓存 ， 结 果 
每 个 正则 表达 式 都 需要 重新 编 详 。 

面 回 对 象 式 处 理 中 的 编 详 缓存 

在 面 回 对 象 式 处 理 中 ， 正 则 表达 式 何 时 编译 完 全 由 程序 员 决 定 。 正 
则 表达 却 的 编 详 是 用 户 通 过 New Regex. re.compile i 
Pattern.compile 《分别 对 应 .NET、Python 和 java.util.regex) 之 类 的 构造 函 
数 来 进行 的 。 第 3 章 的 简单 示例 对 此 做 了 介绍 〈 从 第 95 页 开始 ) ， 编 译 
在 正则 表达 式 实 际 应 用 之 前 完成 ， 但 是 它们 也 可 以 更 早 完 成 《有 时 候 可 
以 在 循环 之 前 ， 或 者 是 程序 的 初始 化 阶段 ，”， 然 后 可 以 随意 使 用 。 在 第 
235、237 和 238 页 的 性 能 测试 中 体现 了 这 一 点 。 

在 面 同 对 象 式 处 理 中 ， 程 序 员 退 过 对 象 析 构 函数 抛 弄 (thrown 
-we 编译 好 的 正则 表达 式 。 及 时 抛 工 不 需要 的 编译 形式 能 够 节省 内 
fo 

了 预 得 必须 字符 / 子 字 人 符 串 优化 

相 比 正则 表达 式 的 完整 应 用 ， 在 字符 串 中 搜索 某 个 字 从 (或 者 是 一 
PFI 是 更 加 “ 轻 量 级 ”的 操作 ， 所 以 有 些 系统 会 在 编 详 阶段 做 些 额 外 
的 分 析 ， 判 断 是 否 存在 成 功 匹 配 必 须 的 字符 或 者 字符 串 。 在 实际 应 用 正 
则 表达 却 之 前 ， 在 目标 字符 串 中 快速 扫 摘 ， 检 查 所 需 的 字符 或 者 字符 串 
— ORANGE, MAHA BRETT ES ik. 

举例 来 说 ，'ASubject: : Cx) 的 ‘Subject: … 和 是 必须 出 现 的 。 程 序 
可 以 检查 整个 字符 串 ， 或 者 使 用 Boyer-Moore 搜 索 算 法 (这 是 一 种 很 快 


的 文件 检索 算法 ， 字 人 符 串 越 长 ， 效 率 越 高 ) 。 没 有 及 用 Boyer-Moore 算 
法 的 程序 进行 逐个 字符 检 碍 也 可 以 提高 效率 。 选 择 目 标 字 符 串 中 不 太 可 
tal Alun Subject: 中 的 心 之 后 的 ‘:，) 能 够 进一步 提高 效 

正则 引擎 必须 能 识别 出 ，'ASubject: : Cx) 的 一 部 分 是 固定 的 文 
本 字符 串 ， 对 任意 匹配 来 说 ， 识 别 出 'thislthatlother 中 ?是 必须 的 ， 需 
要 更 多 的 工夫 ， 而 且 大 多 数 正 则 引擎 不 会 这 样 做 。 此 问题 的 答案 并 不 是 
黑 日 分 明 的 ， 某 个 实现 方式 或 许 不 能 识别 出 ‘由 ?是 必须 的 ， 但 能 够 识别 
出 人 :和 对 都 是 必须 的 ， 所 以 至 少 可 以 检查 一 个 字符 。 

不 同 的 应 用 程序 能 够 识别 出 的 必须 字符 和 字符 串 有 很 大 差别 。 许 多 
系统 会 受到 多 选 结构 的 和 干扰。 在 这 种 系统 中 ， 使 用 也 (islat) 的 表现 好 
于 "thislthat 。 同 样 ， 请 参考 第 247 页 的 “开头 字符 /字符 组 / 子 串 识别 优 
eae 

长 度 判 断 优化 

[ASubject: - Cx) 能 匹配 文本 的 长 度 是 不 固定 的 ， 但 是 全 少 必 

须 包 含 9 个 字符 。 所 以 ， 如 果 目 标 字 符 串 的 长 上 度 小 于 9 则 根本 不 必 答 
试 。 当 然 ， 需 要 匹配 的 字符 更 长 优化 的 效果 才 更 明显 ， 例 如 ': 
\d{79}: ，《〈 至 少 需 要 81 个 字符 ) 。 

请 参见 第 247 页 的 “长 度 识别 传动 优化 ”。 


ED I I Fe EL HEE TT TEL 


Optimizations with the Transmission 
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字符 串 起 始 / 行 锚 点 优化 

这 种 优化 措施 能 够 判 新 ， 任 何以 和 开头 的 正则 表达 去 只 能 在 和 能 
够 匹配 的 情况 下 才 可 能 匹配 ， 所 以 只 需要 在 这 些 位 置 应 用 即 可 。 

在 “ 预 碍 必须 字符 / 子 字符 吝 优 化 ?中 提 到 ， 正 则 引擎 必须 判断 对 茶 个 
正则 表达 式 来 说 有 哪些 可 行 的 优化 ， 在 这 里 同样 有 效 。 任 何 使 用 此 优化 
的 实现 方式 都 必须 能 够 识别 : 如果 TA (thislthat) 匹配 成 功 ， 必须 
能 够 虑 配 ， 但 许多 实现 方式 不 能 识别 'AthislAthat 。 此 时 ， 用 
A (thislthat) 或 者 ^〈? : thislthat) 能 够 提高 匹配 的 速度 。 

间 梓 的 优化 措施 还 对 \A, A WRAZ REIT, XAG 也 有 


效 。 


Bet oh ta AL, 

He EAPO RE, QUERIES IAL &k 或 .+ 开头 ， 
而 且 没 有 全 局 性 多 选 结构 (global alternation) ， 则 可 以 认为 此 正则 表达 
式 的 开头 有 一 个 看 不 见 的 和 。 这 样 束 能 使 用 上 一 节 的 “字符 串 起 始 / 行 销 
点 优化 ”， 布 省 六 量 的 时 间 。 

更 隐 明 的 系统 能 够 认识 到 ， 即 使 开头 的 .大 或 '.+ 在 括号 内 ， 也 可 
以 进行 同样 的 优化 ， 但 是 在 遇 到 捕获 插 吉 时 必须 小 心 。 例 如 ， | C+) 
X\1 期 望 匹配 的 是 字符 串 在 ?两 侧 是 相同 的 ， 还 加 从 RAN ee VOB 
"1234x2345" (HES) . 


字符 串 结束 / 行 锚 点 优化 

这 种 优化 过 到 末尾 为 '$ 或 者 其 他 结束 销 点 ( 寺 129) 的 正则 表达 式 
时 ， 能 够 从 字符 串 末 尾 倒数 在 干 字符 的 位 置 开 始 答 试 匹配 。 例 如 正则 表 
JAIN regex Ces) ? $ 匹配 只 可 能 从 字符 串 末 尾 倒数 的 第 8 个 字符 〈 注 
6) 开始 ， 所 以 传动 装置 能 够 跳 到 那个 位 置 ， 略 过 目标 字符 串 中 许多 可 
能 的 字符 。 

开头 字符 /字符 组 / 子 串 识别 优化 

这 是 “ 预 查 必须 字符 / 子 字 符 串 优化 ”的 更 一 般 的 版 本 ， 这 种 优化 使 用 
同样 的 信息 《正则 表达 式 的 任何 匹配 必须 以 特定 字符 或 文字 子 字符 串 开 
头 ) ， 容 许 传动 闻 置 进行 快速 子 字 符 串 检 否 ， 所 以 它 能 够 在 字符 串 中 合 
适 的 位 置 应 用 正则 表达 式 。 例 如 ， thislthatlother 只 能 从 [Lot] 的 位 置 开 
始 思 配 ， 所 以 传动 装置 预先 检查 字符 串 中 的 每 个 字符 ， 只 在 可 能 匹配 的 
位 置 进行 应 用 ， 这 样 能 节省 大 量 的 时 间 。 能 够 预先 检查 的 子 串 越 
长 ,，“ 错 误 的 开始 位 置 * 就 越 少 。 

PY HR SC AP FE ERER 

这 有 点 类 似 初始 字符 串 识别 优化 ， 不 过 更 加 高 级 ， 它 针对 的 是 在 匹 
配 中 国定 位 置 出 现 的 文字 字符 串 。 如 果 正 则 表达 式 是 \b (perlljavay) 
\.regex\.info\b  ， 那 么 任何 匹配 中 都 要 有 “regex.info"， 上 所 以 智能 的 传动 疼 
置 能 够 使 用 噩 速 的 Boyer-Moore 字 从 串 检 索 算 法 寻找 '.regex.info?， 然 后 
往 前 数 4 个 字符 ， 开 始 实际 应 用 正则 表达 式 。 

一 般 来 说 ， 这 种 优化 只 有 在 内 散文 字 字 符 串 与 表达 式 起 始 位 置 的 距 
离 回 定时 才能 进行 。 因 此 它 不 能 用 于 Ab Cvbijava) \regex\info\b ， 这 个 
表达 式 虽 然 包 含 文字 字符 串 ， 但 此 字符 串 与 岂 配 文本 起 始 位 置 的 距离 是 
不 确定 的 《2 个 或 4 个 字符 ) 。 这 种 优化 同样 也 不 能 用 于 [Nb Ow) 
\.regex\.info\b ， 因 为 ”Qw+) 可 能 匹配 任意 数目 的 字符 。 

TR EVR Ae 





此 优化 与 245 页 的 长 度 识 别 优化 直接 相关 ， 如 条 当前 位 置 距离 字符 
EB AR FB ES TR BED PMI VOC AT is DIRE, Teo a ae te IE VEC Sei 


优化 正则 表达 式 本 号 


Optimizations of the Regex Itself 

文字 字符 串 连 搁 优 化 

也 许 最 基本 的 优化 惑 是， 引擎 可 以 把 'abc 当 作 “一 个 元 素 ”， 而 不 是 
三 个 元 闵 “'a ， 然 后 是 ， 然 后 是 'c ”。 如 果 能 够 这 样 ， 整 个 部 分 就 可 
以 作为 匹配 欠 代 的 一 个 单元 ， 而 不 需要 进行 三 次 欠 代 。 

化 徐 量 词 优 化 

约束 普通 元 系 一 一 例如 文字 字符 或 者 字符 组 的 加 号 、 尾 写 之 类 
的 量词 ， 通 常 要 经 过 优化 ， 避 人 免 普通 NFA 引 擎 的 大 部 分 逐步 处 理 开销 
(step-by-step overhead) 。 正 则 引擎 内 的 主 循环 必须 通用 《〈general ) ， 
能 够 处 理 引 擎 文 持 的 所 有 结构 。 而 在 程序 设计 中 , “通用 ?意味 看 “速度 
慑 ?”， 所 以 此 种 优化 把 .* 之 关 的 容 单 量词 作为 一 个 “整体 ”， 正 则 引擎 
便 不 必 按 照 通 用 的 办 法 处 理 ， 而 使 用 高 速 的 ， 专 门 化 的 处 理 程序 。 这 
样 ， 通 用 引擎 承 绕 过 (short-circuit) 了 这 些 结构 。 

举例 来 说 ，'. 类 和 (? : .) x 在 逻辑 上 是 相等 的 ， 但 是 在 进行 此 
优化 的 系统 中 ， .类 实际 上 更 快 。 举 一 些 例 子 : 在 java.utilregex 中 ， 人 性 
能 提升 在 10% 左 右 ， 但 是 在 Ruby 和 .NET 中 ， 大 概 是 2.5 倍 。 在 Python 
中 ， 大 概 是 50 倍 。 在 PHP/PCRE 中 ， 大 概 是 150 倍 。 因 为 Perl 实 现 了 下 一 
STAM Diath, x M O: .) 大 的 速度 是 一 样 的 〈 请 参考 下 一 
页 的 补 元 内 容 ， 了 解 如 何 解 释 这 些 数据 〉。 

HRT DE i 

如 果 某 种 实现 方式 认为 " (? : .) 类 与 .类 是 完全 等 价 的 ， 那 么 它 
WL H a A SRA o 

消除 不 需要 的 字符 组 

只 包含 单个 字符 的 字符 组 有 点 儿 多 余 ， 因 为 它 要 投 照 字符 组 来 处 
理 ， 而 这 么 做 完全 没有 人 必要。 所以， 联 明 的 实现 方式 会 在 内 部 把 '[.] 转 
换 为 \. 。 

忽略 优先 量词 之 后 的 字符 优化 

忽略 优先 量词 ， 例 如 " Cx?) " RRI?  ， 在 处 理 时 ， 引 人 擎 
通 第 必须 在 量词 作用 的 对 象 〈“ 上 点 号 ) 和 '" 之 后 的 字符 之 间 切 换 。 因 为 
种 种 原因 ， 忽 上 略 优先 量词 通 沿 比 嘱 配 优 先 量词 要 慢 ， 尤 其 是 对 上 文 





中 “化 简 量 词 优化 ?的 匹配 优先 限定 结构 来 说 ， 更 是 如 此 。 另 一 个 原因 
E SAR AUS LC ee CET RATA Ss ZA, PETA UE TS YP] 
换 ， 这 样 会 市 来 额外 的 开销 。 

所 以 这 种 优化 的 原理 是 ， 如 条 文字 字符 跟 在 忽略 优先 量词 之 后 ， 只 
要 引擎 没有 触及 那个 文字 和 字符， 忽略 优 乞 量 词 可 以 作为 普通 的 匹配 优先 
量词 来 处 理 。 所 以 ， 包 含 此 优化 的 实现 方式 在 这 种 情况 下 会 切换 到 特殊 
的 急 略 优 乞 量词 ， 迅 速 检测 目标 文本 中 的 文字 字符 ， 在 迪 到 此 文字 字符 
之 前 ， 跳 过 帅 规 的 “忽略 ?状态 。 

此 优化 还 有 各 种 其 他 形式 ， 例 如 预 查 一 组 字符 ， 而 不 是 特殊 的 一 个 
F Aa, me TT") Cx?) [ULPE T" ] > KAARMA 
绍 的 开头 字符 识别 优化 ) 。 


理解 本 章 中 的 性 能 测试 


本 章 的 大 多 数 性 能 测试 给 出 的 是 某 种 语言 的 相对 结果 。 例 如 ， 第 248 页 我 提 到 一 种 优 
化 过 结构 能 比 另 一 种 未 优化 的 结构 快 10% ,至 少 在 Sun % Java regex package 中 是 这 样 。 
在 ,NET 中 ， 两 者 之 间 的 差异 是 2.5 倍 ， 在 PCRE 中 ,是 150 倍 。 在 Perl 中 ， 两 者 是 一 
样 的 (也 就 是 ， 它 们 的 速度 是 相同 的 )。 


那么 ， 你 能 够 从 中 推导 出 不 同 语言 之 间 的 相对 速度 吗 ? 显然 不 能 。PCRE 中 150 们 的 
性 能 提升 意味 着 优化 执行 的 效果 特别 好 ， 相 对 其 他 语言 ， 或 者 意味 着 未 优化 的 版 本 速 
度 很 慢 。 在 大 部 分 中 ， 我 几乎 没有 提 到 语言 之 间 的 计时 间 题 ， 因 为 它们 是 语言 开发 人 


员 争 论 的 话题 。 

不 过 还 是 有 一 点 值得 一 看 ,就 是 Java 的 10% 和 PCRE 的 150 倍 背后 的 细节 ,看 起 来 PCRE 
中 未 优化 的 (?: ,) xj 的 速度 是 Java 的 1/11, 不 过 优化 的 ',* 要 快 13 倍 。Java fe Ruby 
的 优化 版 本 速度 相同 ,但 是 Ruby 的 未 优化 版 本 比 Java 的 要 慢 40%。Ruby 的 未 优化 版 
本 只 比 Python 的 未 优化 版 本 慢 10% ,但 是 Python 的 优化 版 本 比 Ruby 的 优化 版 本 快 20 
所 有 这 些 都 比 Perl 的 要 慢 。Perl 的 优化 和 未 优化 版 本 都 比 Python 最 快 的 版 本 快 10%, 
请 注意 ， 每 种 语言 都 有 自己 的 强项 ， 这 些 数字 只 是 针对 某 个 具体 的 测试 情况 而 言 的 ， 





“过 度 ” 回 调 检测 
膏 226 页 的 “实测 ”揭示 的 问题 是 ，'(.+) 大 ,之 类 的 量词 结合 结构 ， 


能 够 制造 指数 级 的 回调 。 避 免 这 种 情况 的 徐 单 办 法 怠 是 限定 回溯 的 次 
数 ， 在 “ 超 限 ?时 停止 下 配 。 在 某 些 实际 情况 中 这 非常 有 用 ， 但 是 它 也 为 
正则 表达 式 能 够 应 用 的 文本 人 为 设置 了 限制 。 

例如 ， 如 果 上 限 是 10 OOO, x? 束 不 能 岂 配 长 于 10 000 的 
字符 ， 因 为 每 个 匹配 的 字符 都 对 应 一 次 回 亢 。 这 种 情况 并 不 罕见 ， 尤 其 
在 处 理 Web 页 时 更 是 如 此 ， 所 以 这 种 限制 非常 糟糕 。 

出 于 不 同 的 原因 ， 某 些 实 现 方 式 限制 了 回 浏 堆栈 的 大 小 (也 束 是 同 
时 能 够 保存 的 状态 的 上 限 )。 例 如 ，Python 的 上 限 是 10 000。 就 像 回 济 
上 限 一 样 ， 这 也 会 限制 正则 表达 式 所 能 处 理 的 文本 的 长 度 。 

因为 存在 这 个 问题 ， 本 书 中 的 某 些 性 能 测试 构建 起 来 非常 困难 。 为 
了 获得 最 准确 的 结果 ， 性 能 测试 中 计时 部 分 应 该 尽 可 能 多 地 完成 正则 表 
达 式 的 匹配 ， 所 以 我 创建 了 极 长 的 字符 串 ， 比 较 例 如 " Cw)", 
2 和 (CA ) 大 ?的 执行 时 间 。 为 
了 保证 结果 有 意义 ， 我 必须 限制 字符 串 的 长 度 ， 以 避免 回溯 计数 或 者 挫 
栈 大 小 的 限制 。 你 可 以 在 239 页 看 到 这 个 例子 。 

放免 指数 级 〈 也 惑 是 超 线 性 super-linear) 匹配 

避免 无 休止 的 指数 级 四 配 的 更 好 办 法 是 ， 在 匹配 壬 试 进 入 超 线性 状 
态 时 进行 检测 。 这 样 束 能 做 些 额 外 的 工作 ， 来 记录 每 个 量词 对 应 的 子 表 
达 式 尝试 匹配 的 位 置 ， 绕 过 重复 尝试 。 

实际 上 ， 超 线性 匹配 发 生 时 是 很 容易 检测 出 来 的 。 单 个 量词 “ 旭 
R GEA) 的 次 数 不 应 该 比 目 标 字 符 串 的 字符 数量 更 多 。 人 否则 上 育 定 发 
生 了 指数 级 匹配 。 如 果 根 据 这 个 线索 发 现下 配 已 经 无 法 终止 ， 检测 和 清 
除 元 余 的 匹配 是 更 复杂 的 问题 ， 但 是 因为 多 选 分 支 思 配 次 数 太 多 ， 这 么 
做 或 许 值得 。 

检测 超 线性 匹配 并 迅速 报告 匹配 失败 的 副作用 〈side effect) 2 — wi 
是 ， 真 正 缺 乏 效 率 的 正则 表达 却 并 不 会 体现 出 效率 的 低下 。 即 使 使 用 这 
种 优化 ， 避 免 了 指数 级 匹配 ， 所 花 的 时 间 也 远 远 高 于 真正 需要 的 时 间 ， 
但 是 不 会 慢 到 很 容易 被 用 户 发 现 〈 不 像 是 等 到 太阳 洛 山 一 样 漫 长 ， 而 可 
能 是 多 消耗 W100s， 对 我 们 来 说 这 很 快 ， 但 对 计算 机 来 说 很 漫长 〉。 

当然 ， 总 的 来 看 可 能 还 是 利 大 于 次 。 许 多 人 不 关心 正则 表达 式 的 效 
率 一 它们 对 正则 表达 式 怀 着 一 种 仆 惧 心理 ， 只 希望 能 完成 任务 ， 而 不 
关心 如 何 完 成 。( 你 可 能 没 见 过 这 种 情况 ， 但 是 我 希望 这 本 书 能 够 加 强 
你 的 信心 ， 就 像 标 题 说 的 那样 ， 精 通 正则 表达 式 〉。 

使 用 占有 优先 量词 削减 状态 

由 正 第 量词 约束 的 对 象 匹 配 之 后 ， 会 保留 奉 干 “在 此 处 不 进行 匹 
配 ” 的 状态 (量词 每 一 轮 迭 代 创 建 一 个 状态 ) 。 占 有 优先 量词 (142) 





则 不 会 你 留 这 些 状 态 。 上 其 体 做 法 有 两 种 ， 一 

种 是 在 量词 全 部 答 试 完成 之 后 抛 莽 所 有 备用 状态 ， 效 率 更 融 的 办 法 
we BE FO UN GE FE RAS CULES OS m BR RAE IRS, 
这 样 在 量词 无 法 继续 匹配 的 时 候 引 擎 还 能 继续 运转 ) 。 

在 欠 代 中 即时 抛 茎 状态 的 做 法 效率 更 局 ， 因 为 所 后 的 内 存 更 少 。 应 
Hx 会 在 匹配 每 个 字符 时 创造 一 个 状 在 ， 如 条 字符 串 很 长 ， 会 占用 
大 量 的 内 存 。 


AW “占有 优先 转换 


在 第 4 章 中 (171), 我 们 用 ^\w+:1 来 匹配 “Subject 。\w+j 匹 配 到 字符 串 末 尾 时 ， 
最 后 的 冒号 无 法 匹配 ， 所 以 回溯 机 制 会 强迫 \w+j 逐 个 交还 字符 ， 在 每 个 位 置 对 :1 进 
行 徒 劳 的 尝试 。 在 这 个 例子 中 ， 如 果 使 用 固化 分 组 “(?>\w+) :1 或 者 占有 优先 量词 
^Nw++:， 能 够 避免 无 谓 的 劳动 。 


聪明 的 实现 方式 应 该 能 自动 做 到 这 一 点 。 编 译 正则 表达 式 时 ， 引 学 会 检查 量词 之 后 的 
元 素 能 匹配 的 字符 是 否 与 量词 作用 元 素 匹 配 的 字符 重 登 ， 如 果 不 重 登 ， 量 词 就 应 该 自 
动 转变 为 占有 优先 的 形式 ， 

就 我 所 知 ， 目 前 还 没有 系统 采用 这 种 优化 ， 在 这 里 列 出 来 ， 是 鼓励 开发 人 员 考虑 这 个 
问题 ， 因 为 我 坚信 它 能 带 来 实质 性 的 收益 。 





量词 等 价 转换 

有 人 习惯 用 \d\d\d\d ， 也 有 人 则 习惯 使 用 量词 \d{4} 。 两 者 的 效率 
AAN? 对 NFA 来 说 ， 答 条 几乎 是 肯定 的 ， 但 工具 不 同 ， 结 末 也 不 
同 。 如 朵 对 量词 做 了 优化 ， 则 "Nd{4} 会 更 快 一 些 ， 除 非 未 使 用 量词 的 正 
则 表达 式 能 够 进行 更 多 的 优化 。 听 起 来 有 点 迷惑 ? 但 事实 确实 如 此 。 

我 的 测试 结果 表明 ，Perl、Python、PHP/PCRE 和 .NET 中 ，N\d{4} 
大 概要 快 20%。 但 是， 如 果 使 用 Ruby 和 和 SunHjJava regex package, 
\d\d\d\d, 则 要 快 上 好 几 们 。 所 以 ， 看 起 来 量词 在 条 些 工具 中 要 更 好 一 
些 ， 在 另 一 些 工 具 中 则 要 差 一 些 。 不 过 ， 情 况 远 非 如 此 简单 。 


比较 ==== 和 '={4} 。 这 个 例子 与 上 面 的 截然 不 同 ， 因 为 此 时 重复 
的 是 确定 的 文字 字符 ， 而 直接 使 用 '====, 引擎 更 容易 将 其 识别 为 一 个 文 


字 字 符 串 。 如 采 是 ， 文 持 的 高 效 的 开头 字符 /字符 组 / 子 串 识别 优化 《到 
247) 就 可 以 派 上 有 用场。 对 Python 和 Sun 的 Java regex package 来 说 ， 情 况 


正 是 如 此 ，'==== 比 '={4} 快 上 100 倍 。 

Perl、Ruby 和 .NET 的 优化 手段 更 局 级 ， 它 们 不 会 区 分 '==== 和 '= 
{4} ， 结 果 ， 两 者 是 一 样 快 的 (而 且 都 比 \d\d\d\d 和 dt4} 的 例子 快 成 
AEF) à 

需求 识别 

男 一 种 简单 的 优化 措施 是 ， 引 兆 会 预 完了 取消 它 认为 对 思 配 结果 没有 
价值 的 〈 例 如， 在 不 必 捕 获 文本 的 地 方 使 用 了 捕获 型 括号 ) 工作 。 识 别 
能 力 在 很 大 程度 上 依赖 于 编程 语言 ， 不 过 这 种 优化 实现 起 来 也 可 以 很 容 
吻 ， 如 采 在 匹配 时 能 够 指定 荣 些 选项 ， 吏 能 茶 止 东 些 代价 高 局 的 特性 。 

Tadl 束 能 够 进行 这 种 优化 。 际 非 用 户 明 确 要 求 ， 否 则 它 的 捕获 型 括 
写 并 不 会 真正 捕获 文本 。 而 .NETI 的 正则 表达 式 提供 了 一 个 选项 ， 容 许 程 
序 员 指 定 捕获 型 括号 是 个 需要 捕获 。 


an ee X d N ir 
fe ry KANER A 

Techniques for Faster Expressions 

之 前 的 数 页 介绍 了 我 见 过 的 传统 型 NFA 引 擎 使 用 的 各 种 优化 。 没 有 
任何 程序 同时 具备 所 有 这 些 优化 ， 而 且 无 论 你 受用 的 程序 目前 文 持 哪 
些 ， 情 况 也 会 随时 间 而 改变 。 但 是 ， 理 解 可 能 进行 的 各 种 优化 ， 我 们 就 
能 写 出 效率 更 高 的 表达 式 。 如 果 你 还 理解 传统 型 NFA 的 工作 原理 ， 把 这 
些 知识 结合 起 来 ， 束 可 以 从 三 方面 获 荔 : 

e 编 写 适 于 优化 的 正则 表达 式 编写 适应 已 知 《〈 或 者 未 来 会 文 持 的 ) 
优化 措施 的 表达 式 。 举 例 来 说 ， xxx 比 'x+ 能 适用 的 优化 措施 更 多 ， 
例如 检查 目标 字符 串 中 必须 出 现 的 字符 《〈 军 245) ， 或 者 开头 字符 识别 
(247) à- 

e 柑 拟 优 化 有 时 候 我 们 知道 所 用 的 程序 没有 特殊 的 优化 指 施 ， 但 十 
通过 手工 模拟 ， 我 们 还 是 能 节省 大 量 的 时 间 。 比 如 在 thislthat 之 前 添加 
OD ， ， 这 样 即使 系统 无 法 预知 任何 匹配 结果 必须 以 中 开头 ， 我 们 
还 是 能 模拟 开头 字符 识别 〈 莱 247) ， 下 文 还 会 深入 讨论 这 个 例子 。 

ee 主导 引 擎 的 匹配 使 用 关于 传统 型 NFA 引擎 工作 原理 的 知识 ， 能 
够 主导 引擎 更 快 地 匹配 。 拿 ‘thislthat 来 说 。 每 个 多 选 分 支 都 以 也 F 
头 ， 如 采 第 一 个 多 选 分 文 不 能 匹配 [也 ， 第 二 个 显然 也 不 行 ， 所 以 不 必 
白费 工夫 。 因 此 ， 我 们 可 以 使 用 也 (? : isat) o GER, ‘th 就 只 要 检 
得 一 通 ， 只 由 在 确实 需要 的 时 候 才 会 用 到 代价 相对 融 吨 的 多 选 结构 功 
He. MH, ‘th (? : isat) ,开头 的 纯 文 字 字 符 就 是 也 ， 所 以 存在 进行 
其 他 优化 的 可 能 。 

重要 的 是 认识 到 ， 效 率 和 优化 有 时 候 处 理 起 来 比较 肪 烦 。 在 阅读 本 
他 其 他 内 容 的 时 候 ， 请 不 要 瑟 记 下 面 几 点 : 

e 进 行 看 来 确实 有 帮助 的 改动 ， 有 时 反而 事与愿违 ， 因 为 这 样 可 能 
禁止 了 你 所 不 知道 的 ， 已 经 生效 的 其 他 优化 ，。 

e 深 加 一 些 内 容 模 拟 你 知道 的 不 存在 的 优化 拓 施 ， 可 能 出 现 的 情况 
是 ， 处 理 那 些 添加 内 容 的 时 间 多 于 市 省 下 来 的 时 间 。 

e 浴 加 一 些 内 容 模 拟 一 个 目前 未 提供 的 优化 ， 如 果 将 来 升级 以 后 的 
软件 文 持 此 优化 ， 反 而 会 影 啊 或 者 重复 真正 的 优化 。 

e 同 样 ， 控 制 表达 式 笑 试 触 友 条 种 当前 可 用 的 优化 ， 将 来 条 些 软件 
升级 之 后 可 能 无 法 进行 未 些 更 高 级 的 优化 。 

e 为 近 高 效率 修改 表达 式 ， 可 能 吕 臻 表达 式 难 以 理解 和 维护 。 


e 具 体 的 修改 市 来 的 好 处 《或 是 坏处 ) 的 程度 ， 基 本 上 取决 于 表达 

oa 
害 的 。 

我 来 举 个 极端 点 的 例子 : 你 在 Perl 脚本 中 找到 ' (000|999) $ ， 并 
决定 把 这 些 捕获 型 括号 蔡 换 为 非 捕 获 型 括号 。 你 觉得 这 样 速度 更 快 ， 因 
为 不 再 需要 捕获 文本 的 开销 。 但 是 奇怪 的 是 ， 这 个 微小 而 且 看 起 来 有 益 
的 改动 反而 会 把 表达 式 的 速度 降低 许多 个 数量 级 〈 比 之 前 慢 几 千 倍 ) 。 
怎么 会 这 样 呢 ? 原来 在 这 里 有 咎 干 因素 共同 作用 ， 使 用 非 捕获 型 插 号 
时 ， 字 符 串 结束 / 行 锚 点 优化 ( 守 246) 会 被 关闭 。 我 不 希望 劝阻 读者 在 
Perl 中 使 用 捕获 型 括 写 一 一 绝 大 多 数 情况 下 ， 使 用 他 们 都 是 有 益 的 ， 但 
是 在 条 些 情况 下 ， 会 市 来 灾难 性 的 后 果 。 

所 以 ， 检 测 并 性 能 测试 你 期 望 实际 应 用 的 同类 型 的 数据 ， 有 助 于 判 
靳 改动 是 否 值得 ， 但 是 ， 你 仍然 必须 自己 权衡 众多 因素 。 就 说 这 人 么 多 ， 
下 面 我 开始 讲解 一 些 技 巧 ， 你 能 够 用 它们 来 挖掘 引擎 效率 的 最 后 一 点 潜 


能 。 
前 识 性 优化 


Common Sense Techniques 

AmB kse i, WeReETT ERA RL. 

E Se, HET Fi PE 

Ay EA KE SC TE VU RETA SUA RBA AS AY BAZ. FETED PY Be Ah 
H (95) ， 有 用户 能 够 精确 控制 这 一 点 。 举 例 来 说 ， 如 果 你 希望 在 循环 
人 

复 使 用 。 

在 图 数 式 处 理 一 例如 GNU Emacs 和 Tecl 的 情况 下 ， 应 尽量 保 
a 
244) 。 

如 果 使 用 的 是 集成 式 处 理 ， 例 如 Perl， 应 尽量 避免 在 循环 内 的 正则 
表达 陈 中 使 用 变量 插值 ， 因 为 这 样 每 次 循环 都 需要 重新 生成 正则 表达 
Tl, BURIAL OAM, Perlfett S yO INE ORI KF a as 
348 ) 

AFA ER AS 

如 条 不 需要 引用 括号 内 的 文本 ， 请 使 用 非 捕获 型 插 号 ”0(? : .) 
C45) 。 这 样 不 但 能 够 节省 捕获 的 时 间 ， 而 且 会 减少 回溯 使 用 的 状态 
的 数量 ， 从 两 方面 提高 速度 。 而 且 能 够 进行 进一步 的 优化 ， 例 如 消除 无 





必要 括号 (248) 。 

不 要 滥用 括号 

在 需要 的 时 候 使 用 括号 ， 在 其 他 时 候 使 用 括号 会 阻止 某 些 优化 措 
施 。 除 非 你 需要 知道 .类 ,匹配 的 最 后 一 个 字符 ， 人 否则 请 不 要 使 用 C) 
x 。 这 似乎 很 显而易见 ， 但 是 别 筷 了 ， 本 节 的 标题 是 “常识 性 优化 ”。 

不 要 滥用 字符 组 

这 一 点 看 起 来 也 很 显而易见 ， 但 是 我 经 常 在 缺乏 经 验 的 程序 员 的 表 
达 式 中 看 到 信 . 火 [: ] 。 我 不 知道 为 什么 他 们 会 使 用 只 包含 单个 字符 的 字 
符 组 一 一 这 样 需要 付出 处 理 字 符 组 的 代价 ， 但 并 不 需要 用 到 字符 组 提供 
的 多 字符 匹配 功能 。 我 认为 ， 当 一 个 字符 是 元 字符 时 一 一 例如 |[.] 或 
者 上 [ 关 ] ， 可 能 作者 不 知道 通过 转 义 把 它们 转换 为 \ MA 。 我 经 常 在 
宽松 排列 模式 “〈 到 111) 下 见 到 它们 与 空白 字符 一 起 出 现 。 

同样 ， 读 过 本 书 第 一 版 的 Per 用户 可 能 有 时 候 写 出 'A[Ff][Rr][Oo] 
[Mm]: ,， 而 不 是 用 不 区 分 大 小 写 的 rom: ， 。 老 版 本 的 Perl 在 进行 不 
区 分 大 小 写 的 匹配 时 效率 很 低 ， 所 以 我 推荐 使 用 字符 组 。 但 现在 这 种 做 
人 因为 不 区 分 大 小 与 匹配 效率 低下 的 问题 在 好 儿 年 前 吏 修 

使 用 起 始 锯 点 

除非 是 极其 罕见 的 情况 ， 否 则 以 '. 类 开头 的 正则 表达 式 都 应 该 在 最 
前 面 添加 人 或 者 \A (5129) 。 如 果 这 个 正则 表达 式 在 某 个 字符 串 的 
开头 不 能 匹配 ， 那 么 显然 在 其 他 位 置 它 也 不 能 匹配 。 添 加 锚 点 〈 无 论 是 
手工 添加 ， 还 是 通过 优化 自动 添加 至 246) 都 能 够 配合 开头 字符 /字符 串 / 
字 串 识别 优化 ， 市 省 大 量 不 必要 的 工作 。 


将 文字 文本 独立 出 来 





Expose Literal Text 

我 们 在 本 章 见 过 的 许多 局 部 优化 ， 主 要 是 依靠 正则 引擎 的 能 力 来 识 
别 出 匹 配 成 功 必 须 的 一 些 文字 文本 。 某 些 引擎 在 这 一 点 上 做 得 比 其 他 引 
擎 要 好 ， 所 以 这 里 提供 了 一 些 手动 优 化 措施 ， 有 助 于 “又 露 "文字 文本 ， 
提高 引擎 识别 的 可 能 性 ， 配 合 与 文字 文本 有 天 的 优化 措施 。 

从 量词 中 “提取 ”必须 的 元 系 

用 xxx 替代 x+ 能 够 暴露 匹配 必须 的 x?。 同 样 的 道理 ，'-{5，7} 
有 

“提取 ”多 选 结构 开 尖 的 必须 元 系 


Hth (C? : islat) #40! (? : thislthat) ， 就 能 暴露 出 必须 的 
也 。 如 未 不 同 多 选 分 文 的 结尾 部 分 相同 ， 我 们 也 可 以 从 右面 “ 括 取 ” 
例如 '(? : optim|standard) ization 。 我 们 会 在 下 一 节 中 看 到 ， 如 果 提 
取出 来 的 部 分 包括 销 点 ， 这 么 做 驶 非常 有 价值 。 


将 锁 氮 独立 出 来 


Expose Anchors 

Fe EE R HH ae AN Be tie ie BA eC SS, 和 
\G,) o, FORA TA EE A EAT Be ito EXER, FR 
EE | BAN OCR AN Uh | SE, (Ae A Re ae ee A 

在 表达 式 前 面 独 立 出 和 ^ 和 \G 

[^ C2): abcl123) 和 中 abc|^123 在 逻辑 上 是 等 价 的 ， 但 是 许多 下 
则 引擎 只 会 对 第 一 个 表达 却 使 用 开头 字符 /字符 串 / 字 串 识 别 优化 《到 
246) 。 所 以 ， 第 一 种 办 法 的 效率 要 局 得 多 。PCRE 【还 包括 使 用 它 的 
TR) 中 两 者 的 效率 是 一 样 的 ， 但 是 大 多 数 其 他 NFA 工 具 中 第 一 个 表达 
却 的 效率 更 高 。 

比较 Cabe) ,和 人 入 abc) 我 们 能 友 现 男 一 个 区 别 。 前 者 的 设置 
并 不 很 合适 ， 锌 扣 “ 叫 * 在 捕获 型 括号 内 ， 在 检测 销 点 之 前 ， 必 须 自 先进 
入 插 写 ， 在 许多 系统 上 上， 这样 做 的 效率 很 低 。 茶 些 系 统 (PCRE、 
Perl、.NET) 中 两 者 的 效率 相当 ， 但 是 在 其 他 系统 中 (Ruby 和 Sun 的 
Java regex package) 只 会 对 后 者 进行 优化 。 

Python 似乎 不 会 进行 销 点 优化 ， 所 以 这 些 技巧 目前 不 适用 于 
Python。 当 然 ， 本 章 介 绍 的 大 多 数 优 化 都 不 适用 于 Tcl (243) 。 

在 表达 式 末 尾 独立 出 $ 

此 接 施 与 上 一 廊 的 优化 思想 非常 类 似 ， 虽 然 'abc$|123$ 和 C? : 
abc|123) $ 在 逻辑 上 是 等 价 的， 但 优化 的 表现 可 能 不 同 。 目 前 ， 这 种 优 
化 还 只 适用 于 Perl， 因 为 现在 只 有 Perl 提供 了 “字符 串 结束 /行销 点 优 
I” (e246) o RERIT C.l...) $ 起 作用 ， 对 '(...$9|...$) 不 起 作 
FA. 


CAMS TLIC IE ve DE ACE 2 其 体 情 况 其 体 分 析 


Lazy Versus Greedy:Be Specific 
AS, EA A 0 Em A eV A e a ER EU eA SU 


UK. ABI, ‘Ak: SEPARA? : ， 因 为 前 者 匹配 到 最 
后 的 冒号 ， 而 后 者 匹配 到 第 一 个 冒号 。 但 是 ， 如 果 目 标 数 据 中 只 包含 一 
个 分 号 ， 两 个 表达 式 就 没有 区 别 了 “匹配 到 唯一 的 分 号 为 止 ) ， 所 以 选 
择 速 度 更 快 的 表达 式 可 能 更 合适 。 

不 过 并 不 是 任何 时 候 优 劣 都 如 此 分 明 ， 大 的 原则 是 ， 如 果 目 标 字 符 
串 很 长 ， 而 你 认为 分 号 会 比较 接近 字符 串 的 开头 ， 就 使 用 忽略 优先 量 
词 ， 这 样 引 警 能 更 快 地 找到 分 号 。 如 果 你 认为 分 号 在 接近 字符 串 末 尾 的 
位 置 ， 束 使 用 匹配 优先 量词 。 如 果 数 据 是 随机 的 ， 又 不 知道 分 气 完 葛 会 
靠近 哪 一 头 ， 就 使 用 匹配 优先 的 量词 ， 因 为 它们 的 优化 一 般 来 说 都 要 比 
其 他 量词 要 好 ， 尤 其 是 表达 式 的 后 面部 分 禁止 进行 “忽略 优先 量词 之 后 
的 字符 优化 ”( 守 248) 时 ， 更 是 如 此 。 

如 果 符 匹配 的 字符 串 很 得 ， 差 别 就 不 那么 明显 了 。 这 时 候 ， 两 个 正 
则 表达 式 的 速度 都 很 快 ， 不 过 如 果 你 很 在 乎 那 一 点 点 速度 差别 ， 就 对 典 
型 数据 做 个 性 能 测试 吧 。 

一 个 与 此 有 关 的 问题 是 ， 在 忽略 优先 量词 和 排除 型 字符 组 之 间 CA, 
X? EAA: ]*: ) ， 应 该 如 何 选择 ? 管 案 还 是 取决 于 所 使 用 的 编 
程 语 言 和 应 用 的 数据 ， 但 是 对 大 多 数 引擎 来 说 ， 排 除 型 字符 组 的 效率 比 
忽略 优先 量词 高 的 多 。Perl 是 个 例外 ， 因 为 它 能 对 忽略 优先 量词 之 后 的 
字符 进行 优化 。 





拆 分 上 正则 表达 式 


Split Into Multiple Regular Expressions 

有 时 候 ， 应 用 多 个 小 正则 表达 式 的 速度 比 一 个 大 正则 表达 式 要 快 得 
多 。 举 个 极 踪 的 例子 ， 如 采 你 硕 望 检查 一 个 长 字符 串 中 古 合 包含 月 份 的 
ZT, WRA January 、'February ~ [March 之 类 的 速度 ， 要 比 
‘January|February|March]... 快 得 多 。 因 为 对 后 者 来 说 ， 不 存在 匹配 成 功 
必须 的 文字 内 容 ， 所 以 不 能 进行 "内藤 文字 字符 串 检 查 优 化 ” Ce 
247) .“ 大 而 全 ”的 正则 表达 却 必 须 在 目标 文本 中 的 每 个 位 置 测试 所 有 
的 自 表 达 式 ， 速 上 度 相 当 慢 。 

把 与 本章 时 ， 我 过 到 了 一 个 有 趣 的 情况 。 用 Perl 写 一 个 数据 人 处理 模 
块 时 ， 我 意识 到 各 户 站 程序 有 个 pug， 导 致 它 及 送 奇怪 的 数据 ， 关 
似 'HASH (0x80f60ac) :而 不 是 真正 的 数据 。 所 以 ， 我 打算 修正 这 个 模 
块 ， 寻 找 怪 元 数据 的 来 源 ， 并 报告 错误 。 我 使 用 的 正则 表达 陈 相 当下 
H: \b (? : SCALAR|ARRAY|]...|HASH) \ (0x[0-9a-fA-F]+\) 。 

在 这 里 ， 效 京 是 非 第 关键 的 。 这 个 表达 式 的 速度 如 何 ? Perl 的 调试 


模式 (debugging mode) 能 够 告诉 你 它 对 特定 表达 式 使 用 的 某 些 优化 
C361) ， 所 以 我 进行 了 检查 。 我 希望 月 用 了 预 租 必须 字符 /字符 串 优 
WW, (245) ， 因 为 足够 先进 的 引擎 应 诅 能 够 明白 〈0x: 是 任何 匹配 所 必 
须 的 。 因 为 这 个 正则 表达 陈 所 应 用 的 数据 几乎 不 包含 Ox, RIE 
得 能 够 节省 许多 时 间 。 不 对 的 是 ，Perl 没 有 这 样 做 ， 所 以 程序 必须 在 每 
个 目标 字符 串 的 每 个 字符 那里 测试 整个 正则 表达 式 的 众多 多 选 分 文 。 速 
EIB AS BU ER A BES 

因为 正在 研究 和 撰写 与 优化 有 关 的 内 容 ， 所 以 我 员 思 盏 想 ， 这 个 表 
达 式 应 该 怎样 写 才 能 得 到 优化 。 一 个 办 法 是 以 复杂 有 的 方式 
\ (Ox (?<= (?:SCALAR| ~~" | HASH) \ (0x) [0 9a-fA-FIH) 这 样 ， 一 日 
\ (Ox PLAC Za, Be AP CP IAG TE RD oD) CREA RZ HiT VE 
配 的 是 需要 的 文本 ， 有 和 再 检查 之 后 的 文本 是 个 符合 期 望 。 费 这 番 周 打 的 原 
因 在 于 ， 让 正则 表达 式 获 得 必须 出 现 的 文字 文本 (0x ， 这 样 就 能 进行 
多 种 优化 。 尤 其 是 ， 我 希望 进行 预 得 必须 字符 串 优 化 ， 以 及 开头 字符 / 
字符 组 / 子 串 识别 优化 “至 247) 。 我 确定 这 样 速度 会 很 快 ， 但 是 Perl 不 
支持 长 度 不 定 的 逆序 环视 C133) ， 所 以 我 得 想 办 法 来 绕 开 它 。 

不 过 我 友 完 ， 如 果 Perl 个 会 目 动 预 合 \ (0x ， 我 可 以 目 己 动手 : 

if ($data =~ m/\(0x/ 


and 
Sdata =~ m/(?:SCALAR]|ARRAY|...| HASH) \ (Ox[0-9a-fA-F]+\) /) 


{ 
# 销 误 数据 ， 报 警 
| 
(0x 的 检查 事实 上 会 过 小 大 部 分 文本 ， 相 对 较 慢 的 完整 正则 表 
达 式 只 对 天 可 能 L 配 的 行进 行 检测 ， 这 样 束 在 效率 〈 非 第 太 ) 和 可 读 性 
CAR ta) 之 则 达到 了 完美 的 平衡 QET) 。 


模拟 开头 和 子 符 识 列 


Mimic Initial-Character Discrimination 

如 果 你 的 实现 方式 没有 进行 开头 字符 识别 优化 ( 守 247) ， 则 可 以 
杀 目 动手 ， 在 表达 陈 的 开头 洪 加 合适 的 环视 结构 C133) 。 在 正则 表 
人 
YHo 

如 果 正 则 表达 式 为 ‘Jan|Feb|...|Dec ， 对 应 的 就 是 ' (? = 
[JFMASOND]) (? : Jan|Febj...|Dec) 。 开 头 的 'UJEFEMASOND] 代表 了 


英文 中 月 份 单词 可 能 的 开始 字母 。 不 过 这 种 技巧 并 不 是 所 有 情况 下 都 适 
用 的 ， 因 为 ， 环 视 结 构 的 开销 可 能 大 于 节省 的 时 间 。 在 这 个 例子 中 ， 
为 多 数 多 选 分 文 都 可 能 匹配 失败 ， 预 得 对 我 测试 的 大 多 数 系统 Java, 
Perl, Python, Ruby. .NET) 都 是 有 用 的 ， 因 为 它们 都 不 能 目 动 从 
Jan|Feb|...|Dec 得 到 开头 的 'UJEMASOND] 。 

在 默认 情况 下 ，PHP/PCRE 并 不 会 进行 这 种 优化 ， 但 是 如 果 使 用 
PCRE 的 pcre_study 《也 束 是 PHP 中 的 模式 修饰 从 S$， 号 478)〉 则 可 以 。 而 
Tcl 显 然 能 够 完美 地 做 到 这 一 点 (243) 。 

如 果 正 则 引 敬 能 自动 进行 ' [JFMASOND] 的 检测 ， 速 度 当然 会 比 用 
户 手 工 指定 快 得 多 。 我 们 有 没有 办 法 让 引擎 自动 进行 检测 呢 ? 在 许多 系 
统 上 ， 我 们 可 以 用 下 面 这 个 复杂 得 要 命 的 表达 式 : 

| JFMASOND](?:(?<=J)an|(? <<=F)eb]...|((?<=D)ec) 

RA AN ta EB VRE AR A Ae PS AIAN, (A tE AY TB AE 
倒是 很 值得 的 。 表 达 式 开头 的 字符 组 可 以 被 大 多 数 系 统 的 开头 字符 识别 
优化 所 利用 ， 这 样 传动 闻 置 瓯 能 够 局 效 地 预 租 ' [JEFMASOND] > WR H 
标 字符 串 不 包含 匹配 字符 ， 结 果 会 比 原来 的 Janl...|Dec 或 是 手工 添加 环 
视 功 能 的 表达 陈 要 快 。 但 是 ， 如 果 目 标 字 人 符 串 中 包含 许多 字符 组 能 够 号 
配 的 字符 ， 那 么 额外 的 逆序 环视 可 能 反而 会 减 慢 匹配 的 速度 。 最 主要 的 
问题 是 ， 这 个 正则 表达 式 显然 很 难看 恒 。 但 是 ， 这 个 例子 倒是 很 有 意 
思 ， 也 很 司 发 人 。 

不 要 在 Tcl 中 这 么 做 

上 和 面 的 优化 例子 其 实 降低 了 表达 式 的 可 读 性 。243 页 的 补 元 内 容 提 
到 ， 不 同形 式 的 正则 表达 式 在 Td 中 的 表现 是 相同 的 ， 所 以 在 Td 中 ， 大 
多 数 优 化 并 没有 意义 。 不 过 ， 有 个 例子 中 优化 确实 有 影响 。 根 据 我 的 测 
i, Favs’ ©? =[JFMASOND]) 会 把 速度 降低 到 原来 的 1/100。 

不 要 在 PHP 中 这 么 做 

之 前 我 们 已 经 提 到 过 ， 不 应 该 在 PHP 中 进行 优化 ， 因 为 我 们 能 够 使 
用 PHP 的 "study 功能 模式 修饰 符 S 一 一 来 局 用 优化 。 详 见 第 10 章 第 
478 页 。 





使 用 固化 分 组 和 占有 优先 量词 


Use Atomic Grouping and Possessive Quantifiers 

在 许多 情况 下 ， 固 化 分 组 C139) 和 占有 优先 量词 ( 寺 142)〉 能够 
极 大 地 提高 匹配 速度 ， 而 且 它 们 不 会 改变 匹配 结 未 。 举 例 来 说 ， 如 栗 
MA: J+: ,中 的 冒号 第 一 次 答 试 时 无 法 匹配 ， 那 么 任何 回调 其 实 都 是 没 


有 意义 的 ， 因 为 根据 定义 ， 回 调 “ 交 还 ”的 任何 字符 都 不 可 能 是 冒号 。 使 
用 固化 分 组 人 ^《〈? >[A: ]+) : ,或 痢 占 有 优先 量词 A[^A: ]++: | 束 能 够 
耳 接 抛 茎 备用 状态 ， 或 者 根本 不 会 创造 多 少 备 用 状态 。 因 为 引擎 没有 内 
容 状 态 可 以 回溯 ， 融 不 会 进行 不 必要 的 回调 《〈 第 251 页 的 补 苑 内 容 说 
明 ， 足 够 了 明 的 引擎 能 够 目 动 进行 这 种 优化 ) 。 

不 过 ， 我 必须 强调 ， 这 两 种 结构 运用 不 当 ， 束 会 在 个 经 总 间 改变 下 
MAR MAAD. WRH A: WHA (? >x): i; 
结 未 必然 会 失败 。 整 行文 本 都 会 被 .类 VLA, AEA: 束 无 法 匹配 任 
何 字 符 。 固 化 分 组 阻止 最 后 的 ": ,匹配 必须 进行 的 回溯 ， 所 以 匹配 必定 
失败 。 


主 寻 引 擎 的 匹配 


Lead the Engine to a Match 

提高 正则 表达 式 匹 配 效率 的 另 一 个 共 法 是 尽 可 能 准确 地 设置 匹配 过 
程 中 的 “控制 权 ?。 我 们 曾经 看 过 的 用 th ©? : islat) 取代 rthislthat 的 例 
子 。 在 后 一 个 表达 式 中 ， 多 选 结 构 获 得 最 局 级 列 的 控制 权 ， 而 在 前 一 个 
表达 式 中 ， 相 对 代价 更 遍 吊 的 多 选 结构 只 有 在 ' 了 h 匹配 之 后 才 获 得 控制 
权 。 
。 下 一 他“ 消 除 循环 ”是 这 种 扩 巧 的 高 级 形式 ， 此 处 再 介绍 些 简 单 的 拉 
1]。 

将 最 可 能 区 配 的 多 选 分 支 放 在 前 头 

在 本 书 中 我 们 看 到 ， 许 多 时 候 多 选 分 文 的 摆 放 有 顺序 非 芝 重要 《到 
28、176、189、216) 。 在 这 些 迟 况 下 ， 摊 放 顺 序 比 优化 更 重要 ， 但 相 
OR SR a RR Ee 
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准 例 来 襄 ， 在 匹配 主机 名 的 正则 表达 式 ( 寺 205〉 中 ， 有 人 可 能 习 
惯 把 后 绥 按 照 字母 顺序 排序 ， 例 如 (C? : aerolbizlcomlcoop|...) 。 不 
过 ， 淋 些 排 在 前 头 的 后 缀 应 用 并 不 广泛 ， 匹 配 极 有 可 能 失败 ， 为 什么 要 
把 他 们 排 在 前 头 呢 ? 如 条 按照 分 布 数量 的 排序 : | (C? : comledulorg|net| 
LO ， ， 更 有 可 能 获得 更 迅速 更 常见 的 匹配 ， 

当然 ， 这 上 只 有 对 传统 型 NFA 引 擎 才 适 用 ， 而 且 只 有 存在 匹配 的 时 候 
才 适 用 。 如 果 使 用 POSIX NFA， 或 是 不 存在 匹配 ， 此 时 所 有 的 多 选 分 文 
部 必须 检测 ， 所 以 顺序 是 无 基 紧 要 的 。 

将 结尾 部 分 分 散 到 多 选 结构 内 


接 下 来 我 们 比较 ' (? : comledul...|[a-z][a-z]) \b #1 ‘com\bledu\b]... 
\b|[a-z][a-z]\b, 。 在 后 一 个 表达 式 中 ， 多 选 结 构 之 后 的 \b 被 分 散 到 每 个 
多 选 分 文 。 可 能 的 收 匣 就 是 ， 它 可 能 容许 一 个 多 选 分 文 能 够 由 配 ， 但 多 
选 分 文 之 后 的 \ 可 能 导致 这 个 匹配 不 成 功 ， 把 \b 加 到 多 选 结构 之 内 ， 
匹配 失败 的 更 快 。 这 样 不 需要 退出 多 选 结构 就 能 发现 失败 。 

要 说 明 这 个 技巧 的 价值 ， 这 可 能 还 不 是 最 好 的 办 法 ， 因 为 它 只 是 适 
用 于 一 种 特殊 情形 ， 即 多 选 分 文 可 能 能 够 岂 配 ， 但 是 之 后 案 接 的 字符 可 
能 令 匹 配 失败 。 在 本 章 中 我 们 会 看 到 一 个 更 合适 的 例子 一 一 请 参考 280 
页 关于 $OTHER * 的 讨论 。 

这 个 优化 是 有 风险 的 。 切 记 ， 使 用 这 个 功能 时 要 小 心 ， 不 要 因此 阻 
止 了 本 来 可 以 进行 的 其 他 优化 。 举 例 来 说， 如 果 “ 分 敌 的 ” 子 表达 式 是 文 
MA, ASAP C? : thislthat) : ) 更 换 为 this: |that: 就 违背 
了 “将 文字 文本 独立 出 来 "(号 255) 中 的 菜 些 思 想 。 各 种 优化 都 是 平等 
的 ， 所 以 在 优化 时 请 务必 小 心 ， 不 要 因 小 失 大 。 

在 能 够 进行 独立 结尾 销 点 C256) 的 系统 上 把 正则 表达 式 末 尾 的 
$ 分 散 ， 也 会 过 到 这 种 问题 。 在 这 些 系统 上 ， | C? : comjedul...) $ 比 
‘com$ledu$|...$ 局 得 多 〈 我 测试 了 各 种 系统 ， 只 有 Perl 使 用 了 这 种 优 
TAR 





MARIA 2 
消除 循环 

Unrolling the Loop 

TERRA DSCREN, ec BEAU it PIR ER A POT GI 
擎 基本 工作 原理 的 理解 ， 和 编写 能 够 配合 引擎 工作 的 表达 式 。 所 以 ， 婚 
然 我 们 已 经 考察 了 繁琐 的 细节 ， 不 妨 登 利 入 室 ， 学 习 我 说 的 “消除 循 
环 ” 的 技巧 。 对 某 些 和 常用 的 表达 式 来 说 ， 它 的 加 速效 果 很 明显 。 举 例 来 
Ui, ALE REAR ITS (226) 会 进行 无 休止 岂 配 的 表达 式 ， 能 够 在 
有 限 的 时 间 内 报告 匹配 失败 ， 而 如 果 能 够 思 配 ， 速 上 度 也 会 更 快 。 

此 处 说 的 “循环 ”采用 的 是 ' (thisjthat|...〉 x 之 类 问题 中 星 号 代表 的 
意义 。 之 前 的 无 休止 匹配 '"” OVI 和 AN"]+)〉 类 ”其 实 就 属于 此 类 。 如 果 
无 法 匹配 ， 这 个 表达 式 需 要 近乎 无 限 的 时 间 进 行 答 试 ， 所 以 必须 改进 。 

此 技巧 有 两 种 不 同 的 实现 途径 : 

1. 我 们 可 以 检查 ， 在 各 种 典型 匹配 中 ， IPA" +) 类 中 的 哪个 
部 分 真正 匹配 成 功 了 ， 这 样 就 能 留 下 子 表 达 式 的 痕迹 。 再 根据 刚刚 发 现 
的 模式 ， 重 新 构建 高 效 的 表达 式 。 这 个 (或 许 联 系 不 那么 紧密 的 ) 概念 
模型 就 是 一 个 大 球 ， 它 表示 表达 式 '〈...) 类 ， 球 在 某 些 文本 上 滚动 。 
C.) 内 的 元 素 总 是 能 够 匹配 某 些 文 本 ， 这 样 束 留 下 了 痕迹 ， 就 好 像 
是 把 脏 今 今 的 雪 球 在 地 毯 上 滚 过 去 一 样 。 

2. 态 一 个 办 法 是 ， 从 更 高 的 层面 考察 我 们 期 望 用 于 匹配 的 结构 。 然 
后 根据 我 们 认为 的 第 见 情形 ， 对 可 能 出 现 的 目标 字符 串 做 出 非 正 式 假 
设 。 从 这 个 角度 出 发 构建 有 效 的 表达 式 。 

无 论 采 取 哪 种 办 法 ， 得 到 的 表达 陈 都 是 一 样 的 。 我 首先 讲解 第 一 种 
思路 ， 然 后 介绍 如 何 通过 第 二 种 思路 取得 同样 的 结果 。 

为 了 保证 例子 容易 看 懂 ， 并 尽 可 能 广泛 地 使 用 ， 我 会 使 用 C.D 
来 代 符 所 有 括号 ， 如 果 程 序 文 持 非 捕获 型 括号 CO : ...) 能 够 文 持 ， 
使 用 它们 能 提高 效 靳 。 然 后 会 讲解 固化 分 组 (139) 和 占有 优先 量词 
(142) 的 使 用 。 


方法 1: 依据 经 验 构 建 正 则 表达 式 


Method 1:Building a Regex From Past Experiences 
在 分 析 '" OAA" 多 "时 ， 用 若干 具体 的 字符 串 来 检验 全 局 
多 配 的 其 体 情况 是 很 目 然 的 做 法 。 举 例 来 说 ， 如 果 目 标 字 符 串 是 "hi 


"'，”， 那 么 使 用 的 目 表 达 式 束 是 '" [以 " ]+" 。 这 说 明 ， 全 局 匹配 使 用 
了 最 开始 的 '" ， 然 后 是 多 选 分 文人"]+ ， 然 后 是 末尾 的 '" 。 

如 果 目 标 字 人 符 串 是 : 

" he said\ " hithere\ ”and left " 

pa N+ Be 

对 应 的 表达 式 就 是 O EE NN “1! 在 这 个 
例子 里 以 及 表 6-2 中 ， 我 标记 了 对 应 的 正则 表达 式 ， 让 模式 更 显眼 。 如 
条 我 们 能 对 每 个 输入 字符 串 构 造 特定 的 表达 陈 当 然 很 好 。 这 不 可 能 ， 但 
人 
ATK. 

现在 来 看 表 6-2 前 面 的 四 个 例子 。 下 画 线 标注 的 部 分 表示 “一 个 转 义 
元 素 ， 然 后 是 更 多 的 正常 字符 ”"。 这 就 是 关键 : 在 每 种 情况 下 ， 开 头 是 

ee AN") l 

SE, REEI", BERETA ”~ 。 综 合 起 来 就 得 到 


中 F(t) - oo 
一 一 一 一 一 。 。 这 个 特殊 的 例子 说 明 ， 通 用 模式 可 以 用 来 
构建 许多 有 用 的 表达 式 。 
表 6-2: 消除 循环 的 具体 情况 


TEF 对 应 的 表达 式 
"hi there" dl teks al Fk 

"Just one \" here" "EAA" JHR LNN" 

"some \"quoted\" things"  |"[^\\"] 二 [和 \A\"] AN" 

"with \"a\" and \"b\"." MEAW" HERA") + "+ N] + AA 
"\"ok\"\n" E FR 

"empty \"\" quote" "EMA" + GNA" +8 


构造 通用 的 “消除 循环 ?解法 

在 匹配 双 引 写字 从 串 时 ， 引 写 目 里 和 转 义 冬 线 是 “特殊 ”的 一 一 因为 
引 | 写 能 够 表示 字符 串 的 结尾 ， 反 冬 线 表示 它 之 后 的 字符 不 会 终结 整个 字 
符 串 。 在 其 他 情况 下 ， IANA "] 惑 是 普通 的 点 亏 。 考 察 它 们 如 何 组 合 为 


C“\A") 十 (加 [人 \\"] 十 ) * rr hte 人、 te op 
CO”, RE A 
‘normal+ (special normal+) * | 








oO 


i 
、 、 本 "EANN" T+ (AAA) AD FN 
FS JH PA vim EY Sls, BFS BY 一 一 一 一 . Ren 


旦 ， 表 6-2 中 下 面 两 个 例子 无 法 由 这 个 表达 式 匹 配 。 症 结 在 于 ， 目 前 这 
个 正则 表达 去 的 两 个 IANA "” J+, 要 求 字 符 串 以 一 个 普通 字符 开始 ， 然 后 是 
任何 数目 的 特殊 字符 。 从 这 个 例子 中 我 们 可 以 看 到 ， 它 并 不 能 应 付 所 有 
情况 一 一 字 从 串 可 能 以 转 义 元 系 开 尖 和 和 结尾， 一行 中 间 也 可 能 包含 两 个 
转 义 元 系 。 我 们 可 以 答 试 把 两 个 加 号 改 成 性 号 : 


”这 会 达到 我 们 期 望 的 结果 吗 ? 更 重要 的 
是 ， 它 是 否 会 产生 负面 影响 ? 

就 期 望 的 结果 来 说 ， 很 容易 看 到 所 有 的 例子 都 能 匹配 。 事 实 上 ， 即 
使 是 "\"\"\"" 这 样 的 字符 串 都 能 匹配 。 这 当然 很 不 错 。 不 过 ， 我 们 
还 需要 确认 ， 这 样 重大 的 改变 ， 是 否 会 导致 预料 之 外 的 结果 。 格 式 不 对 
的 引号 字符 串 能 否 匹 配 呢 ? 格式 正确 的 引号 字符 囊 是 否 可 能 无 法 匹配 
We? 效率 又 如 何 呢 ? 


FARE OIEA AVIE TL 开头 的 '" pay pe 只 会 应 
用 一 次 ， 这 没有 问题 ， 它 匹配 开头 必须 出 现 的 引号 ， 以 及 之 后 的 任何 普 
通 字 符 。 这 没有 问题 。 接 下 来 的 | OA") * 是 由 星 号 限定 的 ， 
所 以 不 匹配 任何 字符 也 能 够 成 功 。 也 就 是 说 ， 去 掉 这 一 部 分 仍然 会 得 到 
一 个 合法 的 表达 式 。 这 样 我 们 就 得 到 ' " [AN\" ]* " ， 这 显然 没有 问题 
一 它 代表 了 常见 的 ， 也 就 是 没有 转 义 元 素 的 情形 。 


l (NN) . ae 
Fa Fra, WR 一 一 一 一 一 ”部 分 匹配 了 一 次 ， 其 实 残 等 价 于 


lv A " 大 人 " x" 
“即使 结尾 的 AV"]x* 没有 匹配 任何 文本 
[yeA "I i 

Hosea CVT), BAA. EFE RA 
WEI XE re PA EE (by induction) ”) ， 我 们 发 
现 ， 这 样 的 改动 其 实 是 没有 任何 问题 的 。 

所 以 ， 我 们 最 后 得 到 的 ， 用 来 匹配 包括 转 义 引号 的 引号 字符 串 的 正 
则 表达 式 就 是 : 

DANA" J% (NN) a 


HIE HIA BR A” MEIA 


The Real"Unrolling-the-Loop"Pattern 
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[i 人 " * AN " K 大 1 
[NN Wjy)* 。 这 和 原来 的 表达 式 能 够 匹配 的 结果 是 完 
全 一 致 的 。 但 是 循环 消除 之 后 ， 表 达 式 能 够 在 有 限 的 时 间 内 结束 匹配 。 
不 但 效率 高 得 多 ， 并 且 避 免 了 无 休止 匹配 。 
消除 循环 常用 的 解法 是 : 


| opening normal * (special normal * ) * closing, 


避免 无 休止 匹配 
TANT (R ^A A" 1) 
避免 一 一 一 一 “中 的 无 休止 匹配 ， 有 三 点 很 重 


要 : 

1) Special 部 分 和 normal 部 分 匹配 的 开头 不 能 重 合 。 

special 和 normal 部 分 的 子 表 达 式 不 能 从 同一 位 置 开 始 匹配 。 在 上 
例 中 ，normal 部 分 是 [[A\"] > special 部 分 是 \, ， 显 然 它 们 不 能 匹配 
AR 
It EX o 

FA Fil, A MTA" ] 部 能 够 从 ‘" Hello n "开始 匹配 ， 所 以 它 
们 不 符合 这 种 解法 。 如 采 二 者 能 够 从 字符 串 中 的 同一 位 置 开 始 匹配 ， 驶 
无 法 确定 该 使 用 哪 一 个 ， 这 种 不 确定 吏 会 造成 无 休止 匹配 。: 
085988885888 的 例子 说 明了 这 一 点 C227) 。 如 果 无 法 匹配 (或 是 
POSIX NFA 引 擎 在 任何 情况 下 的 匹配 ) ， 束 必须 答 试 所 有 的 可 能 性 。 这 
SBT MR, ALA BEET PS EIA SUN YEA ee SRE I TSI 

如 果 我 们 确信 ，special 和 normal 部 分 不 能 匹配 同样 的 字符 ， 残 可 以 
将 special 部 分 用 作 检 查 点 ， 消 除 normal 部 分 在 "(.…) 大 A OLEAN 
匹配 同样 文本 造成 的 不 确定 性 。 如 琳 我 们 确信 Special 部 分 和 normal 部 分 
永远 不 会 匹配 同样 的 文本 ， 则 特定 目标 字符 串 的 匹配 中 存在 唯一 的 
special 部 分 和 normal 部 分 的 “组 合 序 列 *”。 检 查 这 个 序列 比 检 查 成 干 上 万 
种 可 能 要 快 得 多 ， 于 是 避免 了 无 休止 匹配 。 

2) normal 部 分 必须 匹配 至 少 一 个 字符 

第 二 点 是 ， 如 果 normal 部 分 需要 匹配 字符 才能 成 功 ， 则 它 必 须 匹 配 
至 少 一 个 字符 。 如 果 我 们 能 够 匹配 成 功 ， 而 不 占用 任何 字符 ， 那 么 下 面 
的 字符 仍然 必须 由 7 (special normal* ) * 的 不 同 迭 代 来 匹配 ， 这 样 我 
AIEE Y ERAI C.) 类 的 问题 。 

选择 ' C\\.) 大 作为 special 部 分 就 违背 了 这 条 规定 。 


"EAN CAA E AAA ) oo 本 
EE EPO IATL, WR ER 


匹配 5 " Tubby’ 《会 失败 ) ， 在 得 到 匹配 矢 败 的 结论 之 前 ， 引 擎 必须 答 
试 春 干 个 'IAN"] 关 匹配 “Tubby” 的 每 一 种 可 能 。 因 为 Special 部 分 可 以 不 
匹配 任何 字符 ， 所 以 它 无 法 作为 检查 点 。 
3) Special 部 分 必须 是 固化 的 
special 部 分 匹配 的 文本 不 能 由 访 部 分 的 多 次 和 欠 代 完成 。 如 采 需 要 匹 
配 Pascal 中 可 能 出 现 的 注释 {...} 和 衬 日 。 能 够 匹配 注释 部 分 的 正则 表达 
RÆ MMH Y ， 所 以 整个 正则 表达 式 就 是 (MIAJ]x\) pH x, CÈ 
永远 不 会 终止 ) 。 或 许 ， 你 会 这 样 划 分 normal 和 special 部 分 : 
Special normal 
e+) MIPA 


S [ a I* ( 1 Jp. [*)* 、 ee 
使 用 我 们 学 会 的 “之 “的 解法 ， 我 们 得 到 
(ma(\{[^]}*\})*)*) , 
(MI[IA xp 类 一 一 一 一 一 一 一 ”。 现 在 来 看 这 个 字符 串 
{comment}:::{another}:: 
匹配 连续 空格 的 可 能 是 单个 .+ ， 或 多 个 "+ 匹配 (每 个 匹配 一 个 
空格 〉， 或 是 多 个 "+ 的 组 合 〈 每 个 匹配 不 同 数目 的 空格 ) 。 这 很 像 之 


前 的 .0856598885b28 的 问题 。 


此 问题 的 根源 在 于 ，special 部 分 既 能 够 匹配 很 长 的 文本 ， 也 能 通过 

= x DO ACCA A EB op SOAS. JEM ETEF S <2 DT SUL fac E 
"WOOF. 

OUR ARTE bc, WR A Re + 只 匹配 一 次 ， 但 是 如 条 不 存在 全 局 
匹配 《例如 把 这 个 表达 陈 作 为 另 一 个 大 的 表达 式 的 一 部 分 ) ， 引 人 擎 下 必 
须 对 每 一 段 衬 格 测试 C+) 大 ,所 有 的 可 能 。 这 需要 时 间 ， 但 这 对 全 局 
匹配 无 蔓 。 因 为 special 部 分 应 该 作为 检 杏 点 ， 而 这 里 没有 任何 需要 检 咎 
的 非 确定 性 。 

解决 的 方法 束 古 ， 保 证 special 部 分 只 能 够 加配 固定 长 度 的 空格 。 
为 它 必 须 匹 配 至 少 一 个 空格 ， 但 可 能 匹配 更 多 ， 我 们 用 … 作为 special 部 
ay, FA’ C.) x 来 保证 special 的 多 重 应 用 能 匹配 多 个 空格 。 

这 个 例子 很 适合 讲解 ， 但 是 实际 应 用 起 来 ， 效 率 更 高 的 办 法 可 能 是 
交换 special 和 normal 表 达 式 : 

* ie) *. 


为 我 估计 Pascal 程 序 的 注释 不 会 比 空格 少 ， 而 且 对 常见 情况 来 说 


更 有 效 的 办 法 是 用 normal 部 分 匹配 常见 的 文本 。 

FT AEs 

如 采 你 真正 掌握 了 这 些 规则 《可 能 需要 反复 疯 谈 和 一 些 实践 ) ， 你 
束 能 把 这 几 条 推广 开 来 ， 作 为 指导 规则 ， 用 来 识 列 可 能 造成 无 休止 匹配 
的 正则 表达 式 。 如 果 有 奋 干 个 量词 存在 于 个 同 的 层面 ， 例 如 和 (大 ) 
大 ， 我 们 吏 必 有 顷 小 心 对 竺 ， 但 是 许多 这 样 的 表达 陈 却 是 完全 没有 问题 
的 。 例 如 : 

e | (Re: -*) x 用 来 匹配 任意 数目 的 ‘Re: 序列 (可 以 用 来 清 
除 邮件 主题 中 的 ‘Subject: :Re: Re: Re: hey’) 。 

e | (-*\$[0-9]+) * 用 来 匹配 美元 金额 ， 可 能 有 空格 作 分 隔 。 

e | Cx) + 用 来 匹配 一 行 或 多 行文 本 。 EKE, WRA SA 
能 匹配 换行 竺 ， 而 这 个 子 表 达 式 之 后 又 有 列 的 元 率 导 致 匹配 失败 ， 残 会 
造成 无 休止 死 配 ) 。 

这 些 表 达 式 部 没有 问题 ， 因 为 每 一 个 都 有 检查 点 ， 也 束 不 会 产 
生 “ 多 种 方式 匹配 同样 文本 ”的 问题 。 在 第 一 个 里 面 是 'Re: ， 第 二 个 里 
面 是 \ ， 第 三 个 (如 有 果 扣 与 不 能 罗 配 换行 从 ) 是 An o 


方法 2: 目 顶 辐 下 的 视角 


Method 2:A Top-Down View 

还 记得 吗 ? 我 说 过 , “消除 循环 ”有 了 两 种 办 法 。 如 采 采 用 第 二 种 办 
法 ， 开 始 只 匹配 目标 字符 串 中 最 第 见 的 部 分 ， 然 后 增加 对 非常 见 情 况 的 
处 理 。 让 我 们 来 看 会 造成 无 休止 匹配 的 表达 式 ' COV\.[ 八 "]+)〉 大 期 望 匹 
配 的 文本 以 及 它 可 能 应 用 的 场合 。 我 认为 ， 通 第 情况 下 引用 字符 串 中 的 
普通 字符 会 比 转 义 字符 更 多 ， 所 以 PAW" J+ 承担 了 大 部 分 工作 。 ON. 只 
需要 用 来 处 理 介 然 出 现 的 转 义 字符 。 我 们 可 以 使 用 多 选 结构 来 应 付 两 种 
情况 ， 但 粳 糙 的 是 ， 为 了 处 理 少 部 分 《〈 雇 不 可 能 是 大 部 分 ) 转 义 字符 ， 
这 样 做 会 降低 效率 。 

如 于 我 们 认为 [和 八 " ]+ 能 够 匹配 字符 串 中 的 绝 大 部 分 字符 ， 残 知道 
OUR VLA HELE, AEBS SS) See EA. WR ERS 
符 ， 后 面容 许 出 现 更 多 的 字符 〈 无 论 是 什么 ) ， 然 后 开始 TAN "]+ 的 新 
一 轮 匹 配 。 每 次 ["]+ 的 匹配 终止 ， 我 们 都 回 到 相同 的 处 境 : 期 望 出 
现 一 个 团 引 写 或 者 是 男 一 个 转 义 。 

我 们 可 以 很 目 然 地 用 一 个 表达 式 来 表达 它 ， 得 到 与 方法 1 同样 的 结 


ly [*\\" 1+ E rA\\"] 4+) x") 
N 


我 们 知道 ， 匹 配 每 次 进行 到 .标记 的 位 置 时 ， 应 该 出 现 一 个 反 斜 线 
或 者 团 双 引 写 。 如 果 反 和 斜 线 能 匹配 ， 就 匹配 它 ， 然 后 是 个 转 义 的 字符 ， 
PGES INSTT, ABR UREA S| Se RE” HY ILE o 

AZ PE, OT SRI AE S| AA Ae STS ANCA HT REA. R 
们 可 以 把 两 个 加 号 改 成 星 写 ， 这 样 就 得 到 与 264 页 相同 的 表达 式 。 


方法 3: 匹配 主机 名 


Method 3:An Internet Hostname 

上 面 介 绍 了 两 种 消除 循环 的 办 法 ， 不 过 我 还 愿意 介绍 另 一 种 办 法 。 
在 用 正则 表达 式 匹 配 如 www.yahoo.com 这 样 的 主机 名 时 ， 它 令 我 震惊 。 
主机 名 主要 是 用 点 写 分 隅 的 子 域名 的 序列 ， 人 准确 地 划 定 子 域名 的 匹配 规 
TORR C203) ， 为 了 保证 清晰 ， 我 们 使 用 '[a-z]+ 来 匹配 子 域名 。 

如 采 子 域名 是 '[a-z]+ , ， 我 们 希望 得 到 点 号 分 隅 的 子 域名 序列 ， 首 
先 要 允 配 第 一 个 子 域名 。 之 后 其 他 的 子 域名 以 点 写 开 头 。 用 正则 表达 式 
KER, Whee [a-z]+ 〈\[a-z]+) *  。 现 在 ， 如 末 我 硕 望 染 加 上 前 面 出 

ar [a-z]+( 国 [a-z]+)* 

现 的 各 种 标记 ， 就 得 到 ”” ”~ “~ “， 显 然 它 看 起 来 非常 熟 
R, yj? 


为 了 说 明 这 种 相似 性 ， 我 们 符 试 把 它 对 应 到 双 引 号 字符 串 的 例子 。 
如 果 我 们 认为 字符 串 是 ‘" ..." :之 内 的 文本 ， 包 括 normal 部 分 
[IANA"] > special 部 分 \. D BRE AAR IBA SE, 75-2 


中 ， 也 就 是 在 讨论 方法 1 中 的 某 个 地 步 。 也 
就 是 说 ， 从 概念 上 讲 ， 我 们 能 够 把 由 点 号 分 隔 的 主机 名 的 问题 看 成 双 引 
号 字符 捉 的 问题 ， 也 就 是 < 由 转 义 元 素 分 隔 的 非 转 义 元 素 构 成 的 序列 ”。 
这 可 能 不 那么 直观 ， 但 是 我 们 可 以 使 用 前 面 用 过 的 套路 。 

二 者 既 存 在 相似 性 ， 也 存在 区 别 。 在 方法 1 中 ， 我 们 改变 正则 表达 
式 是 为 了 容许 normal 部 分 和 special 部 分 之 后 出 现 空 日 ， 但 是 这 里 不 容许 
出 现 室 白 。 所 以 虽然 这 个 例子 与 之 前 的 并 非 完 全 相同 ， 但 也 属于 同一 
类 ， 同 样 可 以 用 来 证 明 消 除 循环 的 技巧 的 强大 和 便捷 。 

子 域名 的 例子 与 之 前 的 例子 有 了 两 大 区 别 : 

。 域 名 的 开始 和 结束 没有 分 界 符 。 

。 子 域名 的 normal 部 分 不 可 能 为 空 ( 也 就 是 说 两 个 点 号 不 能 紧 挨 在 


一 起 ， 点 号 也 不 能 出 现在 整个 域名 的 开头 或 结尾 ) 。 对 双 引号 字符 串 来 
说 ，normal 部 分 可 以 为 宪 ， 即 使 投 照 我 们 的 假设 它们 不 太 应 诅 为 衬 。 所 

Tra n [ra W ] 大 n AB NEL PSS 
以 我 们 需要 把 ONT aig CG, MTERA AR EE TI A 
修改 ， 因 为 Special 部 分 是 分 隔 符 ， 必 须 出 现 。 


观察 


Observations 

LT SORA S| SEAR BI, RAA" PW") OVA" 
x) 类 "有 许多 优点 ， 也 存在 一 些 陷阱 。 

Sea BH: 

eT ROR AI, BORA" CA" IN x ”可 能 更 容 
Hy — PR Art, RIIE SAY SE PE SRB RICE 

e 可 维护 性 可 维护 性 可 能 更 复杂 ， 因 为 任何 改动 都 必须 保持 对 两 个 
[A\\ " ] 相 同 。 我 们 牺牲 了 可 维护 性 来 退 求 效率 。 

好 处 : 

e 速 度 如 果 不 能 匹配 ， 或 是 采用 POSIX NFA， 这 个 正则 表达 式 不 
会 进入 无 休 正 匹配 。 因 为 进行 了 精心 地 调 校 ， 特 定 的 文本 只 能 以 唯一 的 
方式 匹配 ， 如 果 文 本 不 能 匹配 ， 引 擎 会 迅速 有 友 现 它 。 

eB eK 正则 表达 式 “ 操 作 连 续 性 (flow) ”很 好 ， 这 也 是 “流畅 运 
转 的 正则 表达 式 ”( 树 277) 的 主题 。 我 对 传统 型 NFA 进行 了 检测 ， 消 
除 循环 之 后 的 表达 式 总 是 比 之 前 使 用 多 选 结构 的 表达 陈 要 快 得 多 。 即 使 
匹配 能 够 成 功 ， 不 会 进入 无 休止 匹配 状态 时 ， 也 是 如 此 。 


使 用 固化 分 组 和 占有 优先 量词 


Using Atomic Grouping and Possessive Quantifiers 

HILT" OAA" 大 "之 所 以 会 进入 无 休止 匹配 的 状态 ， 问 
题 在 于 ， 如 采 无 法 匹配 ， 它 会 陷入 徒 开 的 答 试 。 不 过 ， 如 采 存 在 匹配 ， 
束 能 很 快 结束 ， 因 为 [和 八 " ]+ 能 够 匹配 目标 字符 串 中 的 大 多 数字 符 《〈 也 
瓯 是 之 前 讨论 过 的 normal 部 分 ) 。 因 为 上 [...]+ SADR C= 
247) ， 而 且 能 够 匹配 大 多 数字 符 ， 外 面 的 "〈.…) 大 ”量词 的 开销 因此 
大 为 减少 。 

BREA," OEA" JO 类 ”的 问题 瓯 在 于 ， 不 会 在 匹配 时 会 陷入 
徒 开 的 答 试 ， 在 我 们 知道 坚 无 用 处 的 备用 状态 之 中 不 断 回调 。 我 们 知 着 


这 些 状 态 坚 无 价值 ， 因 为 他 们 只 是 检查 同样 对 象 的 不 同 排列 (如 有 果 ‘abe 
不 能 匹配 foo”， 那 么 'abc 或 者 abc “以 及 'abc ，'abc 或 者 无 论 什么 形 
式 的 rabc ) 都 不 能 匹配 。 如 果 我 们 能 抛弃 这 些 状态 ， 正 则 表达 式 束 能 迅 
wet VLA A) -o 

抛弃 (或 者 是 忽略 〉 这 些 状 态 的 方法 有 两 种 : 回 化 分 组 (号 139) 
或 者 占有 优先 量词 (二 142) 。 

在 我 们 看 于 消 除 回 溯 以 前 ， 我 名 望 交 换 多 选 分 文 的 顺序， 把 " 
IW") *" BAT" CAV" RMD x" , RAL 
本 的 元 系 束 出 现在 第 一 位 。 前 几 间 中 我 们 已 经 数 次 提 到 过 ， 如 果 两 个 或 
两 个 以 上 的 多 选 分 支 能 够 在 同一 位 置 匹 配 ， 排 列 顺序 的 时 候 就 要 小 心 ， 
因为 顺序 可 能 影响 到 匹配 的 结果 。 但 对 于 本 例 来 说 ， 不 同 多 选 分 文 匹 配 
的 是 不 同 的 文本 《〈 荣 个 多 选 分 文 在 一 处 能 够 匹配 ， 则 其 他 多 选 分 文 在 此 
处 残 不 能 匹配 ) ， 从 正确 死 配 的 角度 来 看 ， 顺 序 束 是 无 关 双 要 的 ， 所 以 
我 们 可 以 根据 清晰 或 效率 的 要 求 来 选择 顺 友 。 

使 用 占有 优先 量词 避免 无 休止 匹配 

会 造成 无 休止 匹配 的 表达 式 '"” CI" 4M) 大 "有 了 两 个 量词 。 我 
们 可 以 把 其 中 一 个 改 为 占有 优先 量词 ， 或 者 两 个 都 改 。 这 两 者 有 区 别 
四 ? 因为 大 多 数 回 溯 的 麻烦 源 自 和 [...]+ 留 下 的 状态 ， 所 以 把 它 改 成 占有 
优先 是 我 的 第 一 想法 。 这 样 得 到 的 表达 式 ， 即 使 找 不 到 匹配 ， 速 度 也 很 
快 。 不 过 ， 把 外 面 的 " 〈.…) * 改 成 占有 优先 会 抛弃 括号 内 的 所 有 备 选 
状态 ， 其 中 包括 [[...]+ 和 多 选 结构 本 里 的 备 选 状态 ， 所 以 如 果 我 要 从 
中 选取 一 个 的 话 ， 我 会 选取 后 者 。 

但 我 们 并 非 只 能 选择 一 个 ， 因 为 我 们 可 以 把 两 个 都 改 为 占有 优先 量 
词 。 共 体 哪 种 办 法 最 快 ， 可 能 取决 于 占有 优先 量词 的 优化 情况 。 现 在 ， 
只 有 Sun 的 Java regex package 文 持 这 种 表示 法 ， 所 以 我 的 测试 只 能 在 Java 
中 进行 ， 并 且 友 现 菏 些 情形 下 其 中 一 种 组 合 更 快 。 我 尿 本 期 组 ， 使 用 两 
PO FO AS ee nino 
IYER o 

使 用 固化 分 组 避免 无 休止 匹配 

如 果 要 对 '" (IN MD x" 使 用 固化 分 组 ， 最 容易 想到 的 办 法 
就 是 把 普通 括号 改 成 固化 分 组 括号 : 6" C2 SP" HD 大 "”。 不 过 
我 们 必须 知道 ， 在 抛弃 状态 的 问题 上 ，" O 二 ...|...) 大 与 占有 优先 的 
Cp 类 + 是 授 然 不 同 的 。 

PC. 类 + 在 完成 时 不 会 留 下 任何 状态 ， 相 反 ，"(? >... 
..….) 类 只 是 消除 多 选 结构 每 次 迭代 时 保留 的 状态 。 星 号 是 独立 于 固化 


分 组 的 ， 所 以 不 受 影响 ， 这 个 表达 式 仍 然 会 保留 " 跳 过 本 轮 迭 代 ” 的 备用 
状态 。 也 就 是 说 ， 回 溯 中 的 状态 仍然 不 是 确定 的 最 终 状 态 。 我 们 希望 同 
时 消除 外 面 量词 的 备用 状态 ， 所 以 要 把 外 面 的 括号 也 改 成 固化 分 组 。 也 
就 是 说 模拟 占有 优先 「 CD 大 + 必须 用 到 O > GD 


解决 无 休止 匹配 的 问题 时 ， CC...|...〉 大 + A O 二 ...|...) AP 
很 有 用 ， 但 是 它们 在 抛弃 状态 的 选择 和 时 间 上 却 是 不 同 的 (更 多 的 到 
寞 ， 请 参阅 173 页 ) 。 


简单 的 消除 循环 的 例子 


Short Unrolling Examples 


现在 我 们 大 概 了 解 了 消除 循环 的 思想 ， 来 看 看 书 中 曾经 出 现 过 的 几 
个 例子 ， 想 想 该 如 何 消 除 循 环 。 
消除 “多 字符 2 引文 中 的 循环 
在 第 4 草 第 167 页 ， 我 们 看 到 这 个 例子 : 
<B> # “匹配 开头 的 <B> 
# 现在 匹配 尽 可 能 多 的 … 
(2?! </?B> J # 如果 不 是 <B> 也 不 是 </B> … 
# AEH FF ATK PF] 
i # (匹配 优先 量词 ) 
</B> # <ANNO> 直 到 结束 边界 


normal 部 分 征 ' IAA 过 ] ，special 部 分 是 ' (? ! </? B>) <, FM 


是 改进 的 版 本 : 


= 匹配 开头 的 <B> 
匹配 任意 数量 的 "normal"… 
任意 数量 的 … 

如 果 不 是 <B> 也 不 是 </B> 

匹配 "special" 

然后 继续 匹配 任意 数量 的 "normal" 


八 
+S SF OSS H HH SES 


</B> 最 后 匹配 结尾 的 </B> 
这 里 固化 分 组 并 不 是 必须 的 ， 但 如 未 只 能 部 分 匹配 ， 使 用 固化 分 组 
He We tee fay LR JE o 
消除 连续 行 匹配 例子 中 的 循环 


连续 行 的 例子 出 现在 前 一 章 的 开头 “至 186) ， 当 时 使 用 的 表达 式 
是 人 Aw+=(〈[AnNlN.) 大 。 看 起 来 这 很 适合 应 用 这 种 技巧 : 
^ \wt = # 开头 的 文字 和 '=' 
# 现在 读 取 (并 且 捕 获 ) 值 ... 
( 
| # "“normal™* 
tre Uke T™ ale if # ( "special™ "normal"*)* 
) 
与 上 一 个 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 它 能 让 引擎 更 快 地 报 
FL ACR. 
消除 CSV 正 则 表达 式 中 的 循环 
第 5 半 用 了 很 长 的 访 幅 讨论 CSV 的 处 理 ， 最 后 得 到 第 216 页 的 代码 : 
el 
(?:# 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ... 
" # (起 始 双 引号 ) 
tee EP") L TE FS j 
" # (#8 PIL5| F) 


# cas RHR FFHEFTAIMAUA... 
L el J 

) 

HRACE, BOETEFPSAYST'NG, ， 这 样 束 能 避免 驱动 过 程 之 来 
的 抹 烦 ， 并 且 效 紊 也 会 提高 。 现 在 我 们 知道 如 何 消 际 循 坏 ， 就 可 以 此 技 
巧 来 看 看 如 何 应 用 这 个 例子 。 

用 来 罗 配 微软 的 CSV 字 和 从 串 的 正则 表达 式 是 ' (3? : [人 "]"” ") 
太 ， 它 看 起 来 很 人 不错。 其实， 这 个 表达 式 已 经 区 分 S normal #lspecial ifs 
分 : TA" J 和 和 '"" 。 下 和 面 我 们 把 这 个 表达 式 写 清楚 ， 用 原来 的 Perl 代 


Z 


At AA YE BR A AE : 


while ($line =~ m{ 
MESI ~ |a] 
(as 
# 或 者 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ? 
" # 起 始 双 引号 


( (?> Vlei (a ) (?> we It Es )* ) 
" # 结束 双 引 号 
# | .或 者 是 
| 
# ..。. 或 者 是 引号 和 过 号 之 外 的 文本 ... 
ee LE 


}gx) 


if (defined $2) { 


Sfield = $2; 
} else { 
Srield = Sli 


Sfield =~ s/""/"/q; 
} 
print "[$field]"; # 输出 字段 的 值 以 供 调 试 
现在 处 理 Sfield... 
} 


如 其 他 的 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 可 以 提高 效率 。 
消除 C 语 言 注 释 匹 配 的 循环 


Unrolling C Comments 

SWE SRA PS DE Bc ES RE AF BINA REA. FECIB SHA, TE 
释 以 /类 开头 ， 关 /结尾 ， 可 以 有 多 行 ， 但 不 能 通令 (CH, JavafilC# th 
容许 这 种 形式 的 注释 ) 。 匹 配 此 类 注释 的 正则 表达 式 在 许多 情况 下 都 有 
用 ， 例 如 构建 去 掉 注 释 的 过 滤 程 序 。 写 这 个 程序 时 我 首先 想到 的 束 是 消 
除 人 循环 ， 而 这 个 技巧 现在 已 经 成 为 我 的 正则 表达 式 宝 库 中 的 重要 站 备 。 

真 的 需要 消除 吗 

我 在 20 世纪 90 年 代 早 期 束 开 始 开 发 本 市 讨论 的 这 个 正则 表达 式 。 
在 那 之 前 ， 人 们 认为 用 正则 表达 陈 匹 配 C 语言 的 注释 即使 不 是 不 可 能 ， 
也 是 很 困难 的 事情 ， 所 以 一 些 可 行 的 办 法 由 我 开发 出 来 之 后 ， 束 成 为 四 
配 C 语 言 注 释 的 标准 方法 。 不 过 ， 在 Perl 引 入 忽略 优先 量词 之 后 ， 出 现 


了 简单 得 多 的 办 法 : 使 用 能 匹配 所 有 字符 的 点 写 I 人 火 . 兴 ? \K/ 。 

在 我 写 程序 的 时 候 忽略 优先 量词 还 没有 出 现 ， 如 果 当 时 有 这 种 现成 
的 特性 ， 就 不 用 费 这 么 多 周折 了 。 不 过 ， 我 的 解决 办 法 仍然 是 有 效 的 ， 
因为 即使 在 首次 文 持 忽略 优先 量词 的 那 一 厂 Perl 中 ， 使 用 消除 循环 技巧 
的 程序 仍然 要 比 使 用 忽略 优先 量词 的 快 得 多 (我 做 了 许多 种 测试 ， 有 了 时 
快 50%， 也 有 了 时 快 360%) 。 

不 过 ，Perl 现在 综合 了 各 种 优化 措施 ， 形 势 就 其 倒 过 来 ， 忽 略 优先 
量词 的 程序 要 快 上 50% 到 550%。 所 以 我 现在 使 用 从 类. 类? \ 大 /来 匹配 
C 语 言 的 注释 。 

这 是 否 意味 着 ， 现 在 匹配 C 语言 注视 用 不 着 消除 循环 的 技巧 了 ?如 
果 引 敬 不 文 持 忽略 优先 量词 ， 消 除 循 环 的 价值 就 能 体现 出 来 。 也 不 是 所 
有 的 正则 引擎 都 能 综合 各 种 优化 ， 在 我 测试 的 其 他 任何 语言 中 ， 消 除了 
循环 的 程序 都 要 更 快 一 一 最 快 的 时 候 速 度 相 于 60 倍 ! 消除 循环 的 技巧 确 
实 很 有 用 ， 所 以 下 文 讲 解 如 何 用 它 来 匹配 C 语 言 注释 。 

因为 匹配 C 语言 注释 时 不 存在 双 引 号 字符 串 中 转 义 字符 \" 的 问题 ， 
可 能 有 人 党 得 事情 会 比较 简单 ， 但 问题 其 实 更 复杂 。 因 为 这 里 的 “结束 
双 引 号 ”大 /不 止 一 个 字符 。 直 接 用 |A 关 [A 关 ] 关 \ 类 /可 能 看 起 来 没 问 
于， 但 不 能 匹配 /类 «some comment here 类 类 /， 因 为 其 中 还 有 “类 :， 而 
这 是 必须 匹配 的 ， 所 以 我 们 需要 另外 的 办 法 。 

换 更 清晰 的 表示 方法 

你 可 能 党 得 和 关 [A 夫 ] 关 \ 类 / 难以 阅读 ， 即 使 本 书 的 体例 已 经 尽量 做 
到 容易 看 恒 。 但 不 壮 的 是 ， 注 释 部 分 的 边界 符 拓 :本 刁 束 是 正则 表达 式 
的 元 字符 ， 所 以 得 使 用 反 和 斜 线 转 义 ， 结 果 正 则 表达 式 看 起 来 让 人 头疼 。 
为 了 看 得 更 清楚 ， 我 们 在 这 个 例子 中 使 用 /x...x/， 而 不 是/ 业 ... 炎 /。 经 过 
这 个 细微 的 改动 ， 人 类 [A 类 ] 类 \ 类 / 变 成 了 更 容易 看 收 的 VX[Ax] 类 X/ 。 这 
和 
J| o 

直接 的 办 法 

fEASH (196) ， 我 给 出 了 匹配 分 隔 符 之 内 文本 的 公式 : 

1. 匹 配 起 始 分 隔 符 ; 

2.VUACIE SC: 匹配 <* 除 结束 分 隅 符 之 外 的 任何 字符 ” 

3. VO AE HR oP bi FF o 

ULE BAAN) A BE Ae Ax Ax / VE AF on Pg Ro a ES TEAR AF IK 
个 模式 。 难 处 在 于 匹配 “ 除 结束 分 隔 符 之 外 的 任何 字符 ”。 如 果 结 束 分 隔 
符 是 单个 字符 ， 我 们 可 以 用 排除 型 字符 组 。 但 字符 组 不 能 用 来 进行 多 字 





人 符 匹 配 ， 不 过 如 末 能 使 用 否定 型 顺序 环视 ， 我 们 残 能 使 用 | O : 
C2 ! x/) .) 大。 这 就 是 ' 除 结束 分 隔 符 之 外 的 任何 字符 。 

于 是 我 们 得 到 Wx 2: C2 ! x) D) xx 。 它 没有 问题 ， 但 速度 
很 慢 在 我 做 的 一 些 测试 中 ， 速 度 要 比 下 面 的 表达 式 慢 几 百 倍 )。 这 个 
思路 很 有 用 ， 但 缺乏 实用 性 ， 因 为 几乎 所 有 文 持 顺序 环视 的 流派 痢 文 持 
忽略 优先 量词 ， 所 以 效率 并 不 是 问题 ， 你 完全 可 以 用 '/x.*? x/。 

那么 ， 顺 看 这 种 分 三 步 走 的 思路 ， 是 耕 有 其 他 办 法 匹配 第 一 个 x/ 之 
前 的 文本 ? 能 想到 的 办 法 有 两 个 。 之 一 是 把 X 作 为 开始 分 隔 符 和 结束 分 
隅 符 ， 也 就 是 说 ， 死 配 除 X 之 外 的 任何 字符 ， 以 及 之 后 字符 不 为 料 线 的 
Xo XTE, “| 除 结 束 分 隅 从 之 外 的 任何 字符 ”就 成 了 : 

e 除 X 之 外 的 任何 字符 : [^X], © 

e 之 后 字符 不 是 和 料 线 的 X: XM], 。 

这 样 得 到 '〈[Axjlx[A]) 类 ,来 匹配 主体 文本 ， x axl *x 
来 匹配 整个 注释 。 我 们 会 发 现 这 条 路 行 不 通 。 

男 一 种 办 法 是 ， 把 崇 跟 在 x 之 后 斜 线 当 作 结束 分 隔 符 。 这 样 “ 除 结 
束 分 隅 和 从 之 外 的 任何 字符 ” 束 成 了 : 

e 除 和 料 线 外 的 任何 字符 : M], 。 

eAIRTEXZ Jn RZ: '[^x]/。 

于 是 用 [xjI[Ax]y/) * 匹配 主体 文本 ， "x (M * x/, 匹配 
整个 注释 。 

不 对 的 是 ， 这 同样 是 死路 。 

WRH x axa 关 X/ SR DLAC ‘/xx:foo-xx/’, fE‘foo’ Za, $ 


Tora 

一 个 x 由 x[M] 匹配 ， 这 当然 没有 问题 。 但 是 之 后 ， “人 :匹配 并 和 
而 这 个 x 应 该 是 标记 注释 的 结束 。 于 是 继续 下 一 轮 和 迭代 ，'[Ax] 匹配 斜 
线 ， 结 果 会 匹配 x/ 之 后 的 文本 。 

[x CMI 关 X/ 也 不 能 匹配 i/x/:foo/x/* (整个 注释 都 应 该 下 
配 ) 。 如 果 注 释 结尾 后 紧 跟 斜 线 ， 表 达 式 匹配 的 内 容 会 超过 注释 的 结束 
分 职 符 ( 这 也 是 其 他 解法 的 问题 ，。 而 在 本 例 中 ， 回 溯 可 能 有 些 令 人 迷 
惑 ， 所 以 读者 最 好 弄 明 白 '/x (MA 类 x/ 为 什么 能 匹配 


Years = days /x divide x//365, /x assume non-leap year X/ 
ee a a 
(可 以 在 空余 时 间 好 好 想 想 这 个 问题 。) 


让 我 们 来 修正 这 些 表达 式 。 在 第 一 种 情况 下 ， 因 为 玻 忽 ，x[wW] 匹 
配 了 结尾 的 ...xx/。 如 果 我 们 用 "x Axlat xx 。 我 们 认为 ， 添 加 
加 号 之 后 ，'x+[M] 匹配 以 非 斜 线 字符 结尾 的 一 连 串 x。 确 实 它 能 够 这 样 
匹配 ， 但 因为 回溯 “ 斜 线 之 外 的 任意 字符 ”仍然 可 以 是 x。 首 先 ， 匹 配 优 
先 的 x+ 匹配 我 们 需要 的 额外 的 x， 但 是 如 果 全 局 匹配 需要 ， 回 渊 会 逐 
个 释放 它们 。 所 以 它 仍然 会 匹配 过 多 内 容 : 
/Xx A xx/ foo() /xx B xx/ 

要 解决 这 个 问题 ， 还 得 回 到 之 前 介绍 的 办 法 : 准确 表达 我 们 希望 表 

达 的 意思 。 如 果 我 们 说 的 “ 紧 跟 字符 不 是 斜 线 的 一 些 x” 其 实 就 是 除 x 之 
[ R 6 > 

外 的 非 斜 线 字符 ， 就 应 该 用 着 1 。 它 不 会 匹配 XA ，， 一 连 捉 
x 中 表示 注释 结束 的 那个 x。 事 实 上 ， 它 还 有 个 问题 ， 就 是 无 法 匹配 注释 
结束 之 前 的 任意 多 个 x， 所 以 会 在 TA * 停 下 来 。 因 为 我 们 预计 结 
尾 分 隔 符 前 只 有 一 个 x*， 所 以 必须 加 入 x+ 处 理 这 种 情况 。 

于 是 得 到 /x ([ 人 ^x]|x+[ 人 /x]) 大 X+/ ， 几 配 最 终 的 注释 。 


在 H 然 语言 和 正则 表达 式 之 间 翻译 
第 273 页 讨论 用 来 匹配 C 注释 “ 除 结束 分 隔 符 之 外 的 任何 字符 ”的 两 种 万 法 时 ， 我 提 
到 两 种 办 法 


x， 之 后 的 字符 不 是 针线 :; x[^/]] 
科 线 ， 之 前 的 字符 不 是 x: [^x]/ 


这 种 做 法 并 不 正式 一 一 自然 语言 的 描述 与 正则 表达 式 是 非常 不 同 的 ， 你 发 现 了 吗 ? 
要 看 这 两 者 的 差别 ， 想 象 第 一 个 表达 式 匹 配 字符 串 “regex ”的 情况 ， 最 后 的 x 之 后 


没有 针线 ,但 它 不 能 被 x[^/]1 匹 配 。 字 符 组 必须 匹配 一 个 字符 ,尽管 这 个 字符 不 能 是 
余 线 ， 但 和 它 必 须 存 在 ， 可 “regex” 中 的 x 之 后 没有 任何 字符 。 第 二 个 表达 式 的 情况 
与 此 类 似 。 当 时 ， 我 们 需要 的 正 是 符合 这 两 个 要 求 的 表达 式 ， 所 以 自然 语言 的 表述 是 
错误 的 ， 

如 果 能 使 用 顺序 环视 ,，“Xx， 之 后 的 字符 不 是 斜 线 ”可 以 直接 写 做 x(?!/) PARE, 
就 可 以 使 用 x([^/]1$)1。 它 仍然 需要 匹配 x 之 后 的 字符 , 但 也 可 以 匹配 字符 囊 的 结尾 ，。 
如 果 能 够 使 用 逆序 环视 ,，“ 余 线 ， 之 前 的 字符 不 是 x” 就 可 以 表示 为 (?<!x) /j。 如 果 
不 能 ， 就 需要 使 用 CUI) /1 

在 这 个 例子 中 ， 我 们 没有 使 用 上 述 的 任何 一 种 办 法 ， 但 知道 有 这 些 办 法 并 不 是 坏事 。 





这 看 起 来 很 迷惑 ， 对 吗 ? 真正 的 表达 式 〈 用 大 取代 x) Ble AX 
AXIN HND 大 \ 类 +/ ， 这 样 更 复 洒 了， 更 不 容 多 看 收 ， 所 以 在 理 
解 复 哥 的 正则 表达 式 时 ， 一 定 要 你 持 清 醒 的 思维 。 

消除 C 语 言 注 释 的 循环 

为 了 提高 表达 云 的 效率 ， 我 们 儿 须 消除 这 个 表达 云 的 循环 。 下 一 页 
的 表 6-3 给 出 了 我 们 能 够 “消除 循环 ”的 表达 式 。 

和 子 域名 的 例子 一 样 ，mormalx 必须 匹配 至 少 一 个 字符 。 子 域名 
的 例子 中 是 因为 noma 部 分 不 能 为 衬 。 本 例 中 必须 的 结束 分 隅 人 符 包 含 
两 个 字符 。 我 们 确信 ， 任 何以 结束 分 隅 人 符 的 第 一 个 字符 结尾 的 任何 
normal 序 列 ， 只 有 在 紧 跟 字符 不 能 组 成 结束 分 隔 从 的 情况 下 ， 才 会 把 控 
制 权 交 给 special 部 分 。 

表 6-3: 消除 C 语 言 注释 的 循环 


[ | | 
opening normal* (special normal*)* closing) 
ee _ _ _ _ _ _ _ _“/ 


a 正则 来 过 式 

“opening 注释 开始 | 

normal* | 注释 文本 ， 包 含 一 个 或 多 个 “X， | [x] kat 

special | 不 属于 结 来 边界 符 的 字符 [aya] 
PTEI, TARO AA Ree, RIIE: 


'/x [Ax] *x+ ( [4/x] [x] *xt) */, 
Te ee ee mal 


请 注意 .标注 的 位 置 。 正 则 引擎 可 能 有 两 种 办 法 到 达 此 处 《〈267 页 的 
表达 式 也 是 如 此 ) 。 第 一 个 是 在 开头 的 x[n] > x+ 匹配 之 后 直接 前 进 
到 此 处 ， 第 二 是 在 〈.….) 关 循 环 的 某 一 轮 中 。 无 论 哪 种 情况 ， 只 要 到 达 
oA, Ae CZ VO x PAREMA (pivotal point) ， 可 已 
经 进入 了 注释 的 结尾 分 隅 符 。 如 果 下 面 的 字符 是 斜 线 ， 则 匹配 完成 。 如 
果 是 其 他 字符 (当然 不 是 x)〉 ， 我 们 知道 之 前 的 判断 是 错误 的 ， 然 后 回 
到 normal 部 分 ， 等 竺 下 一 个 x。 找 到 之 后 我 们 再 一 次 回 到 标记 位 置 。 

回 到 现实 

[a[n] * x+ ([A/x][Ax] *x+) */ 还 不 能 直接 拿 来 用 。 首 先 ， 注 释 
是 /大 ... 大 /而 不 是 /Xx...Xx/。 当 然 ， 我 们 可 以 很 容易 地 把 每 个 x 瞪 换 为 
《字符 组 中 的 x 符 换 为 大 ) : 

PAK [AK] AVA F(A & JAK] VK 4) */ 

实际 情况 中 ， 注 释 通 第 会 包括 多 行 。 如 果 匹 配 的 注释 包括 多 行 ， 这 
个 表达 陈 也 应 该 能 够 应 付 。 如 有 果 是 严格 以 行为 处 理 单位 的 工具 ， 例 如 
egrep， 当 然 没 办 法 用 一 个 正则 表达 式 匹 配 所 有 的 行 。 对 本 书 中 提 到 的 
大 多 数 工 具 ， 我 们 的 确 可 以 用 这 个 表达 式 来 匹配 多 行 ， 删 除 它 们 。 

在 实际 中 ， 会 遇 到 许多 问题 。 这 个 正则 表达 式 能 够 识别 C 的 注释 ， 
但 不 能 识别 C 语 法 的 其 他 重要 方面 。 例 如 ， 划 线 的 部 分 尽管 不 是 注释 ， 
也 能 够 匹配 : 


const. char *cstart = "/*", *cend = ™*/"™ 
2 


我 们 会 在 下 一 市 接 看 讨论 这 个 例子 。 





it WHIZ Fe HIRIA TU 


The Freeflowing Regex 

我 们 化 了 不 少时 间 来 构建 匹配 C 的 注释 的 正则 表达 式 ， 但 十 没有 考 
虑 如 何 避 免 字 符 串 中 的 错误 匹配 。 使 用 Perl 的 话 ， 你 可 能 会 想到 用 下 面 
的 程序 过 涛 注释 : 

$prog= 一 S{A 火 [A 炎 ] 类 \ 类 +《〈《? : [V&A] *\e+) */} Hg; HA 
fC BIL CHAR! ) 

REAP, AarSprogteey hy CAS MPR Cie, BLAS CAS 
Pep) 。 问 题 在 于 ， 如 果 在 字符 串 内 部 找到 注释 的 起 始 标 记 ， 正 则 表达 
式 的 匹配 也 不 会 停止 ， 比 如 这 段 C 代 码 : 


char *CommentStart = "/*"; /* start of comment */ 
char *CommentEnd = "*/"; /* end of comment */ 


XE, PF BAe EEN ABP ve IE MU AeA SUN DLAC ZH AR, (EL ce tA AS TE 
Hab op A ee ETS EB Yo] SG ER VLC 2 EB bn AB BEDS 
Hos DLAC eAT. ALA SIR AEE RET oa HH Baar eA 
来 有 可 能 开始 的 地 方 ) AT, PRO ERB oie AS CIAL, Feo eR R. 
的 张 动 过 程 继续 问 前 ， 进 入 双 引 亏 字 符 吝 ， 其 内 容 似乎 是 注释 的 开始 。 
最 好 是 能 够 告诉 正则 引擎 ， 遇 见 双 引 瑟 字 符 串 时 是 应 该 答 试 匹配 还 是 直 
接 跳 过 。 当 然 ， 我 们 确实 能 做 a 到 这 一 后。 


引导 匹配 的 工具 


A Helping Hand to Guide the Match 


看 下 面 的 程序 : 
SCOMMENT = qr{/\*[^*]*\*+(?: [~^/*] [~^*]*\*+)*/}; # 匹配 注释 
SDOUBLE = qr{"™(?:\\.| [4\\"]) *"}; # 匹配 双 引 号 字符 囊 


$text =~ S/SDOUBLE|SCOMMENT/ /9; 


这 里 出 现 了 两 件 新 事物 。 其 中 之 一 是 表达 式 
$DOUBLEI$COMMENT ， 它 由 两 个 变量 组 成 ， 都 使 用 了 Perl 特 有 的 qr/ 
..…./ 正 则 表达 式 “ 双 引号 字符 串 ” 操 作 符 。 我 们 曾 在 第 3 章 仔 细 讨 论 过 ( 叶 
101) ， 如 果 用 字符 串 表 示 正 则 表达 式 ， 使 用 字符 串 的 时 候 必 须 格外 小 
心 。Perl 提 供 的 qv.../ 运 算 符 解决 了 这 个 问题 ， 它 会 把 操作 对 象 
(operand) 视 为 正则 表达 式 ， 但 不 会 实际 应 用 它 。 我 们 在 第 2 半 CS 


76) 已 经 看 到 ， 这 样 非常 方便 。 与 m/.../ 和 Ss/.../.../ 一 样 ， 我 们 可 以 自己 
选择 分 隔 符 C71) ， 上 面 使 用 的 是 花 括 号 。 

另 一 点 是 通过 用 $DOUBLE 来 匹配 双 引 号 字符 串 。 传 动 装置 驱动 到 
$DOUBLE 能 匹配 的 位 置 时 ， 会 一 次 性 匹配 整个 双 引 号 字符 串 。 这 里 使 
用 多 选 分 支 完 全 没有 问题 ， 因 为 二 者 之 间 并 没有 和 重用。 如 果 我 们 从 左 同 
右 扫 揪 这 个 正则 表达 式 束 会 发 现 ， 应 用 到 字符 串 时 ， 存 在 三 种 可 能 : 

e 汗 释 部 分 能 够 由 配 ， 于 是 一 次 性 匹配 注释 部 分 ， 直 接 到 达 注 释 的 
KÆ, KÉ... 

e 双 引 写 字符 串 部 分 能 够 岂 配 ， 于 是 一 次 性 匹配 双 引 号 字符 嘻 ， 下 
接 到 达 其 结尾 ， 或 者 .. 

o 上面 两 者 都 不 能 匹配 ， 本 轮 符 试 失败 。 局 动 驱 动 过 程 ， 跳 过 一 个 
FIT o 

OPE, EMRAN AF EB ERE AN BBE aa 
in, Ke K ee. Sip k, BIA RAIA MB, AAS eK xk 
FET REE AY BJ tS RS SEB MERITE FB) 
点 束 可 以 了 。 

SCOMMENT = GET CEIFA COAT De] # 匹配 汪 释 
SDOUBLE = ar{"(2:\\.1 (4\\"]) *"}; # 匹配 双 引 号 字符 串 
Stext =~ s/ (SDOUBLE) | SCOMMENT/$1/g; 


WEE — RIXE F: 

e 议 置 了 捕获 型 括 写 ， 如 果 能 够 风 配 双 引 号 字符 串 对 应 的 多 选 分 
文 ， 则 $1 会 保存 对 应 的 内 容 。 如 采 匹 配 通 过 注释 多 选 分 文 ，$1 为 空 。 

e@ 抠 replacement 的 值 设 置 为 $1。 结 果 束 是 ， 如 果 双 引号 字符 串 匹 配 
J>, replacement SE FA y FITR 并 没有 及 生 删 除 操作 ， 蔡 换 不 
会 进行 任何 修改 《不 过 存在 伴随 效应 ， 即 一 次 性 匹配 这 个 双 引 号 字符 
串 ， 直 接 到 达 其 结尾 ， 这 残 是 把 它 放 在 多 选 结 构 首 位 的 原因 ) 。 男 一 方 
面 ， 如 果 匹 配 注释 的 多 选 分 文 能 够 下 配 ，$1 ANZ, MUSE BAe 
BRIERE CEB) 。 

Be ADA) DTT S| SACs, PION. RA a 
Rm Ze s ADI AS -thS ita sc. WR Bae C++, 
Java, CH ANEFS. LATO An] 作为 第 四 个 多 选 分 文 ， 列 在 
fi ob o 





SCOMMENT = 全 


SCOMMENT2 = qr{//[*\n]*}; # 匹配 C++ // 注释 
SDOUBLE = qe{"(?:\\.1[4\\"]) *"}e # 匹配 双 引 号 字符 串 
SSINGLE = qei! (?2\\~] [27 \\1)" "Fe # 匹配 单 引号 字符 串 
$text =~ s/(SDOUBLE|$SINGLE) |1SCOMMENIT | $COMMENT2/$1/g; 
N Ne 


基本 原理 很 好 恒 : 引擎 检 查 文 本 ， 迅 速 捕 获 CRAE, Mh 
除 ) 这 些 特 殊 结 果 。 在 我 的 老 机 器 (配置 大 概 停留 在 1997 年 的 水 平 ) 
上 ，Perl 脚 本 在 16.4 秘 的 时 间 内 去 反 了 16MB，500 000 行 的 测试 文件 中 的 
注释 。 这 已 经 很 快 了 ， 不 过 我 们 仍然 需要 提高 速度 。 


引 叶 民 好 的 正则 表达 式 速度 很 快 


A Well-Guided Regex is a Fast Regex 

暂 仿 一会儿 ， 我 们 能 够 下 接 控 制 这 个 正则 引 获 的 运转 ， 进 一 步 提 蜗 
匹配 速度 。 来 考 谍 注释 和 字符 串 之 间 的 普通 C 代码 。 在 每 个 位 置 ， 正 则 
引擎 都 必须 答 试 四 个 多 选 分 文 ， 才 能 确认 是 售 能 匹配 ， 只 有 四 个 多 选 分 
eee SY Semen T | ee Seeman rene 

我 们 知道 ， 如 末 其 中 任何 一 个 多 选 分 文 有 机 会 匹配 ， 开 头 的 字符 都 
必须 是 斜 线 、 单 引号 或 是 双 引 号 。 这 些 字 符 并 不 能 保证 能 够 匹配 ， 但 是 
不 满足 这 些 条 件 绝 对 不 能 匹配 。 所 以 ， 与 其 让 引擎 缓慢 而 痛 百 地 认识 到 
这 一 点 ， 不 如 把 [人 " 诈 作为 多 选 分 文 ， 直 接 告诉 引擎 。 实 际 上 ， 同 一 
行 中 任何 数量 的 此 类 字符 都 能 归 为 一 个 单元 ， 所 以 我 们 使 用 A" /+ 。 
如 采 你 记得 无 休止 匹配 ， 可 能 会 为 添加 的 加 号 担心 。 硝 实 ， 如 末 在 茶 种 
C.) 大 循环 中 ， 它 可 能 是 很 大 的 问题 ， 但 是 在 这 个 例子 中 ， 它 完全 没 
有 问题 《之 后 没有 元 系 强 迫 它 回调 ) ， 所 以 ， 添 加: 


SOTHER = qr{[*""/]}; # 可 能 作为 某 个 多 选 结构 开头 的 字符 
Stext = s/ (SDOUBLE|$SINGLE|SOTHER+) | SCOMMENT | $COMMENT2/$1/g; 
eT 


出 于 某 些 我 们 即将 要 看 到 的 原因 ， 我 把 加 号 量词 放 在 $OTHER 之 
后 ， 而 不 是 $OTHER 的 内 容 之 中 。 

我 重新 进行 了 性 能 测试 ， 出 乎 意料 的 是 ， 这 样 可 以 减少 759% 的 时 
间 。 通 过 改进 ， 这 个 表达 式 广 省 了 频 尝 笠 试 所 有 多 选 分 文 的 大 部 分 时 


间 。 仍 然 有 些 情况 ， 所 有 多 选 分 支 都 不 能 匹配 (例如 5 sw3.14 ,) ， 此 


上 时， 我 们 只 能 接受 驱动 过 程 。 

不 过 ， 事 情 还 没有 结束 ， 我 们 仍然 可 以 让 表达 式 更 快 : 

e 在 大 多 数 情 况 下 ， 最 种 用 的 多 选 分 文 可 能 是 '$OTHER+ ， 上 所 以 我 
们 把 它 排 在 第 一 位 。POSIX NFA 没 有 这 个 问题 ， 因 为 它 总 会 检查 所 有 的 
多 选 分 支 ， 但 是 对 于 传统 型 NEFA， 它 只 要 找到 号 配 就 会 停止 ， 为 什么 不 
把 最 可 能 出 现 的 多 选 分 支 放 在 第 一 位 呢 ? 

e 一 个 引用 字符 串 匹 配 之 后 ， 在 其 他 字符 串 和 注释 匹配 之 前 ， 很 可 
能 出 现 的 承 是 SOTHER 的 匹配 。 奋 在 每 个 元 素 之 后 都 添加 '$OTHER 
* ， 就 能 够 告诉 引擎 下 面 必须 匹配 $OTHER， 而 不 用 马上 进入 下 一 轮 /g 
循环 。 

这 与 消除 循环 的 技巧 是 很 相似 的 ， 此 技巧 之 所 以 能 提高 速度 ， 是 因 
为 它 主 导 了 正则 引擎 的 匹配 。 这 里 我 们 使 用 了 关于 全 局 匹配 的 知识 来 进 
行 局 部 优化 ， 给 引擎 提供 快速 运转 必须 的 条 件 。 

非常 重要 是 ，'$OTHER xx 是 加 在 每 个 匹配 引用 字符 串 的 子 表达 式 
之 后 的 ， 而 之 前 的 4OTHER 〈 排 在 多 选 结构 最 前 面 的 ) 必须 用 加 号 量 
词 。 如 果 你 不 清楚 原因 ， 请 考虑 下 面 的 情况 : 添加 的 是 $SOTHER+， 而 
某 行 中 有 两 个 连 在 一 起 的 双 引 号 字符 串 。 同 样 ， 如 果 开 涉 的 $9OTHER 使 
用 星 号 量词 ， 则 任何 情况 都 能 已 配 。 


最 终 得 到 : 
(SOTHER+ | SDOUBLESOTHER* | SSINGLESOTHER*) | $SCOMMENT | $COMMENT2) 





这 个 表达 式 能 把 时 间 再 减少 5%。 

回 过 头 来 力 想 最 后 两 个 改动 。 如 果 每 个 琴 加 的 $OTHER * JAC ft 
多 的 内 容 ， 开 头 的 49OTHER+ 〈 我 们 将 其 作为 第 一 个 多 选 分 文 ) 只 有 两 
种 情况 下 能 够 匹配 : 1) 它 匹 配 的 文本 在 整个 s%/.../.../g 的 开头 ， 此 时 还 
轮 不 到 引用 字符 串 的 匹配 ; 2) 在 任意 一 段 注 释 之 后 。 

你 可 能 会 想 “ 从 第 二 点 考虑 ， 我 们 不 妨 在 注释 后 洪 加 $OTHER+”。 
这 很 不 错 ， 只 是 我 们 希望 用 第 一 对 插 写 内 的 表达 式 风 配 所 有 希望 保留 的 
文本 一 一 不 要 把 孩子 连 洗 深水 一 起 倒 挥 。 

那么 ， 如 果 $OTHER+ 出 现在 注释 之 后 ， 我 们 是 人 耕 需 要 把 它 放 在 开 
SWE? 我 党 得 ， 这 取 雇 于 所 应 用 的 数据 一 如 果 注 释 比 引用 字符 串 更 
Z, ERMER EN, WERKER- MARX. TU, RWZI 
面 。 从 测试 数据 来 看 ， 把 它 放 在 前 面 的 效果 更 好 。 排 在 后 面 大 约会 损失 
最 后 的 修改 一 半 的 效率 。 








完工 


Wrapup 

事情 还 没有 结束 。 不 要 起 记 ， 每 个 罗 配 引号 学 从 串 的 子 表 达 式 都 应 
该 消除 循环 ， 本 章 已 经 化 了 很 长 的 篇 幅 讲 解 这 个 问题 。 所 以 ， 最 后 我 们 
要 把 这 两 个 子 表 达 式 和 奉 换 为 : 

$ DOUBLE SEE | OV] PES TORN] SD Fe 
SSINGLE = get’ 1 XAT Pare Ve [OUT FS 

这 样 修 改 节省 了 15% 的 时 间 。 这 些 细 小 的 修改 把 匹配 的 时 间 从 16.4 
秒 缩短 到 2.3 秒 ， 提 升 了 7 倍 。 

最 后 的 修改 还 说 明 ， 用 变量 来 构建 正则 表达 式 多 么 方便 。 
$DOUBLE 可 以 作为 单独 的 元 素 独 立 出 来 ， 可 以 改变 ， 而 不 需要 修改 整 
个 正则 表达 式 。 虽 然 还 会 存在 一 些 整 体 性 问题 (包括 捕获 文本 括 写 的 计 
BX) ， 但 这 个 技巧 确实 很 方便 。 

这 种 便利 是 由 Perl 的 qr/.../ 操 作 举 提供 的 ， 它 表示 与 正则 表达 式 相 
天 的 “字符 串 ”*?。 其 他 语言 没有 提供 相同 的 功能 ， 但 是 大 多 数 语言 提供 了 
TE EY IO RE E Ts 


下 面 是 原始 的 正则 表达 式 ， 看 到 它 ， 你 肯定 会 觉得 上 和 面 的 办 法 非常 
方便 。 为 了 便于 印刷 ， 我 把 它 分 为 两 行 : 

(A YR" PW" PACAP" TA) "PA" YAP 

AAAS ETA" XA [AK] VK H]AA +) 
* //[^Nn] x 


总 结 :开动 你 的 大 脑 


In Summary:Think! 

在 本 重 的 结尾 讲 个 故事 ， 我 硕 望 谈 者 能 够 明日 ， 在 NFA 中 使 用 正则 
表达 式 时 ， 和 稍微 动 动脑 筋 能 带 来 多 大 的 收 巷 。 在 使 用 GNU Emacs 时 ， 我 
硕 望 用 一 个 正则 表达 却 来 找 出 茶 种 类 型 的 缩写 ， 例 
如 “don't”、“Tm> 和 “we'12 之 类 ， 同 时 必须 忽略 与 单词 邻接 的 单 引 号 。 
我 想 用 [\<\w+ 来 匹配 单词 ， 然 后 是 "”([tdmjlrellllve〉 。 这 办 法 没有 
问题 ， 但 是 我 意识 到 ， 使 用 \<\wt 是 感 蕊 有 的， 因为 这 里 只 用 到 \w。 你 
看 到 了 ， 如 果 撒 号 之 前 就 是 一 个 w，\w+ 显 然 也 能 够 轧 配 ， 所 以 这 个 正 
则 表达 式 检 查 并 没有 增加 狐 的 信息 ， 除 非 我 希望 得 到 匹配 的 文本 在 这 
里 并 不 需要 ， 我 们 只 需要 找到 这 个 位 置 ) 。 蛙 独 使 用 \w 的 正则 表达 式 的 
速度 是 原来 的 10 倍 。 

正 因 如 此 ， 一 点 点 的 思考 束 可 以 市 来 巨大 的 收获 。 我 布 望 本 章 能 够 
引发 你 的 这 点 思考 。 


a7 Perl 


Perl 

Perl 在 本 书 中 的 分 量 很 重 ， 这 样 安排 有 到 分 的 理由 。Perl 很 流行 ， 
提供 的 正则 表达 却 特 性 很 丰 旦 ， 容 多 下 载 到 ， 也 很 容 多 入 门 ， 而 且 在 
Windows、Unixz 和 Mac 等 各 种 平台 上 都 有 提供 。 

Perl 的 某 些 程序 结构 看 上 去 类 似 C 和 其 他 传统 编程 语言 ， 但 也 只 是 
看 上 去 像 而 已 。Perl 解 决 问题 的 方式 一 一 Perl 之 道 (The Perl Way) 
古人 不 同 于 传统 语言 的 。Perl 程 序 的 设计 通常 使 用 传统 的 结构 化 和 面 问 对 
象 的 概念 ， 但 是 数据 处 理 通 沿 严 重 依 赖 正 则 表达 式 。 我 认为 完全 可 以 这 
么 说 : 正则 表达 式 在 所 有 的 Perl 程 序 中 都 不 可 或 缺 。 无 论 这 个 程序 是 100 
000 行 ， 还 是 一 行 : 

%perl-pi-e's{ ([-+]? \d+ C\\d*) ? ) F\b}{sprintf "%O0fC", 
($1-32) *5/9}eg'* xtX SPEAR i EEA H.x, KRP HER 
度 转 换 为 摄氏 温度 还 记得 第 2 IPAM ISD 。 

AN eA 

本 章 讲 解 Perl 的 正则 表达 式 的 方 方 面 徊 〈 注 1) ， 包 括 正 则 流派 的 细 
节 ， 和 使 用 正则 表达 式 的 运算 符 。 本 划 从 基础 开始 介绍 相关 的 细节 ， 但 
我 还 是 假设 读者 对 Perl 有 有 基本 的 理解 (如 果 你 看 过 第 2 革 ， 看 本 章 束 没 
多 大 问题 ) 。 那 些 没 有 详细 讲解 的 细节 ， 我 会 一 笔 市 过 ， 也 不 会 这 工夫 
来 讲解 语言 中 与 正则 表达 式 不 相关 的 细节 。 在 手边 准备 一 本 Perl 的 文档 
会 很 有 帮助 ， 或 者 O'Reilly 的 Programming Perl 也 行 。 

即使 你 目前 对 Perl 还 不 够 了 解 也 不 要 人 么 ， 重 要 的 是 要 有 进一步 学 习 
的 欲 盟 。 从 任何 方面 来 说 ， 阅 谈 本 草 都 不 是 件 轻松 的 事情 。 我 的 目的 不 
是 市 读者 入 门 ， 而 是 教 给 读者 其 他 Per 的 书 中 没 提 供 的 有 用 知识 : 为 了 
保持 本 和 草 内 容 的 整体 性 和 连贯 性 ， 我 不 会 忽略 一 些 重要 的 细节。 茶 些 问 
古 很 复 林 ， 细 市 很 多 ， 如 果 不 能 蕊 上 理解 也 不 必 担 心 。 我 推荐 证 者 第 一 
通 了 阅读 时 只 要 了 解 全 面 的 网 景 ， 需 要 的 时 候 再 返 过 来 租 陪 。 

下 面 列 出 了 本 章 的 结构 作为 指导 : 

e“Perl IEW TUR” (286) 考察 了 Perl MIE AAS HEREIN Ee 
的 元 字符 ， 以 及 正则 文字 提供 的 附加 特性 。 

e@“ 正 则 相关 的 Perl 教义 (Perlism) ” (293) 考察 了 在 Perl 中 使 
用 正则 表达 式 的 一 些 重 要 问题 。 详 细 介 绍 了 “动态 作用 域 (dynamic 
scoping) ”和 “表达 式 应 用 场合 (expression context) ”， 并 解释 了 它们 与 








正则 表达 式 之 间 的 紧密 联系 。 

e 下 则 表达 式 必须 与 应 用 方式 结合 起 来 才 有 价值 ， 所 以 下 面 各 节 讲 
解 了 Perl 中 神奇 的 正则 表达 式 控制 结构 : 

qr.../ 运 算 符 和 Regex 对 象 (303) 

Matchia BFF (=306) 

Substitutionia FF (318) 

Splits IT (321) 

e“I5HPelh EARE” C326) 介绍 了 Perl 独 具 的 正则 改良 功 
能 ， 包 括 在 正则 表达 式 的 应 用 过 程 中 执行 任意 Perl 代 码 的 功能 。 

e“Perl 的 效率 问题 ”(! 雪 347) 详细 讲解 了 每 个 Perl 程序 员 关 注 的 问 
题 。Perl ”使 用 传统 型 NFA 引 擎 ， 所 以 我 们 可 以 充分 利用 第 6 章 介 绍 的 各 
种 技巧 。 当 然 ， 还 有 一 些 专属 于 Perl 的 问题 会 强烈 地 影响 到 Perl 应 用 正 
则 表达 式 的 方式 和 速度 。 这 些 都 会 有 所 涉及 。 

前 几 章 出 现 的 Perl 

本 书 的 大 部 分 内 容 中 都 出 现 过 Perl: 

e 第 2 章 包括 Perl 的 入 门 知识 ， 给 了 许多 例子 。 

e 第 3 章 介绍 了 Perl 的 历史 CF88) ， 用 Perl 语 言 介 绍 了 许多 应 用 下 
则 表达 式 的 问题 ， 例 如 字符 编 妈 (包括 Unicode'105)〉 ~ UMIRA CF 
110) ， 以 及 元 字符 C113) 。 

e 第 4 章 解密 了 Perl 使 用 的 传统 型 NFA 引 擎 。 对 Perl 用 户 来 说 这 一 章 
非常 重要 。 

e 第 5 章 ”承接 第 4 章 ， 包 含 许多 讨论 过 的 例子 。 其 中 许多 是 以 Perl 给 
出 的 ， 即 使 有 些 例子 不 是 以 Perl 给 出 的 ， 它 们 的 原理 也 适用 于 Perl。 

e 第 6 章 对 效率 感 兴 趣 的 Perl 程 序 员 应 该 仔细 阅读 。 

为 了 照顾 不 黑 悉 Perl 的 谈 者 ， 前 几 章 我 都 催化 了 Perl 的 例 于 ， 使 用 
容易 看 异 的 伪 码 。 本 间 我 会 使 用 Perl 风 格 的 代码 来 举例 。 


作为 语言 组 件 的 正则 表达 去 


Regular Expressions as a Language Component 

Perl 语 言 引 人 注目 的 特性 之 一 就 是 ， TEAR A SEE a S 言 之 中 文 持 完 
KRAANE. Perk A te PAL AN TE MU eK Uy FRB, EEE IE Wl eas xh 
Wiehe, Eater nate a AE ee eZ RCo 

Perl 具 有 强大 的 运用 正则 表达 式 的 能 力 ， 人 们 可 能 认为 ， 这 需要 数 
量 迷 多 的 运算 付 ， 但 是 ，Perl 事 实 上 从 提供 了 四 个 与 正则 表达 KREA 

运算 符 ， 以 及 少量 的 相关 元 素 〈 见 表 7-1) 。 
#7-1: Perl 中 SENKE TE RIT AA 


正则 表达 式 相关 运算 符 修饰 符 am 
m/regex/mods (7306) 
s/regex/replacement/mods (7318) 
qr /regex/mods (#303) 

split (+) (#321) 





/x /0 正则 表达 式 的 解释 方式 (7292, 348) 
/s /m /i | 引擎 认定 的 目标 字符 串 〈( 字 292) 
/g /c /e | 其 他 (311. 315. 319) 








编译 指示 (Pragma) 匹配 完成 之 后 的 变量 (299) 
ac 
use charnames ‘:full’; (#290) rene 
| Yn 5 AAS 1, 
use overload; (7341) CILT p? 
use re 'eval'; (7337) : 
A, 4 7 ~ | 的 效率 问题 了 356) 


相关 函数 相关 变量 


lc lcfirst uc ucfirst (7290) = 

| 默认 的 目标 字符 事 (7308) 
pos (#313) quotemeta (7290) BK 内 炭 代 三 的 运行 结果 (30) 
reset (7308) study (#359) is 


ee HER ty HK, (ERIN ISR TT BORER, PPA AI 


Perl K Ah 


Perl's Greatest Strength 


Perl 最 大 的 优势 可 能 在 于 ，Perl 的 运算 符 和 函数 提供 了 丰 守 的 选 
项 。 根 据 应 用 场合 的 不 同 ， 它 们 的 行为 也 不 同 ， 当 然 ， 这 通 冲 是 执行 者 
在 那 种 场合 日 然 想 到 的 操作 。O’Reilly 的 Programming Perl 说 得 很 绝 
XT: “ 忌 的 来 说 ，Perl 的 运算 和 从 可 以 做 你 希望 的 任何 事情 ......”。 正 则 匹 
配 运算 符 mregex/ 提 供 了 许多 神奇 的 功能 ， 会 根据 应 用 的 场合 、 方 式 以 
及 修饰 符 的 不 同 而 变化 。 


Perl) i Ah 


Perl's Greatest Weakness 

表达 能 力 太 强 ， 也 是 Perl 最 大 的 毛病 之 一 。 哪 怕 只 是 进行 极 小 的 修 
改 ， 也 有 数 不 清 的 特殊 情况 、 条 件 和 场合 在 你 眼皮 辰 下 发生 变化， 但 却 
不 会 通知 你 不 经 意 之 间 吏 切换 到 夯 一 种 应 用 场合 〈 注 2) 。 在 
Programming Perl 这 本 书 中 ， 上 面 那 句 话 的 下 半 句 是 “只 是 缺乏 一 致 性 
(consistency) ”。 当 然 ， 对 计算 机 科学 来 说 ， 固 定 、 一 致 而 值得 依赖 的 
接口 是 可 取 的 。Perl ”的 强大 功能 在 有 经 验 的 用 户 手 里 可 能 是 强大 的 起 
as, (ESOL, VR Perl fee NOTH, WAT iB CLAY 
脚 为 代价 的 。 





PerlH 正则 流派 


Perl's Regex Flavor 

下 一 页 的 表 7-2 概 要 插 述 Perl 的 正则 风格 。 以 前 ，Perl 的 许多 元 字符 
是 其 他 系统 不 文 持 的 ， 但 十 经 过 许多 年 之 后 ， 其 他 系统 接受 了 许多 Perl 
的 创 狐 。 这 些 常 见 的 特性 在 第 3 革 的 概 只 里 有 接 述 ， 但 是 Perl 还 有 专属 
oe 会 在 本 章 后 面 讲解 ( 表 7-2 a SERA A AT 

下 面 是 对 表格 有 的 补 元 : 

o1\b 只 有 在 字符 组 内 部 才 是 退 格 符 的 简 记 法 。 在 字 付 组 外 部 ，\b 表 
示 里 词 分 界 付 (二 133) 。 

八进制 转 义 接收 2 到 3 位 的 数值 。 

| \xnum 十 六 进 制 较 义 接收 两 位 数字 《也 可 以 是 一 位 数字 ， 但 古 会 
报警 ) 。 ‘\x{num}, 能 接收 任意 长 度 的 十 六 进 制 数 。 


表 7-2: Perl 的 正则 流派 概览 


字符 组 缩 略 表示 法 ” 


115 (c) 





\a [\b] \e \f \n \r \t \octal \xhex \x{hex! \cchar 


字符 组 及 相关 结构 

118 字符 组 : […] [^…] (可 能 包括 类 似 POSIX 的 [:alpha:] 表 示 法 ， 囊 127) 
#119 除 换行 符 外 的 所 有 字符 : 点 号 (使 用 /s 时 能 匹配 所 有 字符 ) 

"120 Unicode 组 合 字 符 序 列 : \x 

#120 单个 字 节 (有 危险 ): \C 

F120 (c) | 字符 组 缩 略 表示 法 ": \w \d \s \W \D \S 

F121 (c) Unicode & tk, FA AF] RIR*: \p{Prop} \P{Prop} 

锚 点 及 其 他 零 长 度 断 言 

12 行 /字符 串 起 始 位 置 : ^ NA 

#129 行 /字符 串 结束 位 置 : $ \z \2 

#315 前 一 次 匹配 的 结束 位 置 : \G 

= 133 单词 分 界 符 ”: \b \B 

F133 环视 : (Parr) (21) (?<=…) (?<!…) 

注释 和 模式 修饰 符 

F135 模式 修饰 符 “: (?:mods-mods) ， 容 许 出 现 的 字母 是 x s mi (7292) 
F135 模式 修饰 作用 范围 : (?mods-mods:…) 

F136 注释 : (PH) Be ( 若 使 用 /x， 则 注释 从 '#” 开始 ， 到 行 末 结 束 ) 


分 组 、 捕 获 、 条 件 判断 和 控制 





W137 捕获 型 括号 : (…) \1 \2.. 

& 137 仅 用 于 分 组 的 括号 : (?:…:) 

139 固化 分 组 : (?>…) 

#139 多 选 结 构 : | 

140 条 件 判 断 : (?if then | else) 放 部 分 可 以 为 内 网 代码 、 环 视 ， 或 是 (num) 
141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

"141 AOR EE]: *?3 +? ?? {n}? {n,}? {x,y}? 
W327 AAR: (?{…]}) 

327 动态 表达 式 : (??{…}) 

专属 于 正则 文字 的 功能 

#289 (c) 变量 插值 : $name @name 

#290 大 小 写 转换 : \1 \u 


大 小 写 转换 范围 : \U \L NAE 
文字 文本 范围 : \Q…\E 
命名 的 Unicode 字符 : \N{name} 


可 选 出 现 ， 参 见 第 290 页 





o2w、\d、\s 之 关 完 全 文 持 Unicode。 

Perl 的 \s 不 能 匹配 ASCII 的 王 直 制 表 和 人 符 C5115) 。 

o3 Perl 的 Unicode 文 持 针 对 的 是 Unicode Version 4.1.0. 

Unicode 字 母 表 也 能 文 持 。 字 母 表 和 属性 名 可 以 有 ‘Is’ 二 级 ， 但 并 非 
Ail C125) 。 区 块 名 可 以 有 ‘In? 前 级 ， 但 只 有 在 区 块 和 字母 表 的 名 字 
发 生 冲 突 时 才 必 须 使 用 。 

Perl 也 支持 \p{L&} ~ ‘\p{Any},. ‘\p{All}. ‘\p{Assigned} 和 
\p{Unassigned} 属性 。Perl 文 持 例如 \p{Letter} 的 长 属性 名 。 名 字 的 各 
个 单词 之 间 可 能 是 空格 、 下 男 线 ， 或 者 什么 也 没有 ， 《例如 
\p{Lowercase_Letter} ， 也 可 能 写作 \p{Lowercase Letter}, ) 或 者 十 
\p{Lowercase'Letter} ) ， 为 了 前 后 一 致 ， 我 推荐 使 用 第 123 页 表格 中 的 
长 命名 。 

\p{A...}, SUT NPL... o 

o4 单词 分 界 符 完 全 文 持 Unicode。 

o5 顺序 环视 可 能 包含 捕 狼 型 括号 。 

让 序 环 视 中 的 子 表 达 式 必须 匹配 固定 长 度 的 文本 。 

o6/X 修 饰 符 只 能 识别 ASCI 空 日 字符 。/m 只 对 换行 符 有 影响 ， 而 且 
不 是 所 有 的 Unicode 

PRAT FF o 

/能够 在 Unicode 中 正常 工作 。 

所 有 的 元 字符 并 不 是 生 而 平等 的 “正则 元 字符 ?没有 得 到 正则 引擎 
的 文 择 ， 但 Perl 的 正则 文字 预 处 理 机 制 能 对 付 。 


正则 运算 符 和 正则 文字 


Regex Operands and Regex Literals 

427-29 PW Amita ee ECF”. EMF Cegex 
literal ) 束 是 m/regex/ 部 分 中 的 “Tegex”， 里 然 平 时 称 其 为 “正则 表达 式 ”， 
但 在 “分 隅 从 之 间 的 部 分 是 有 目 己 的 解析 规则 。 用 Perl 的 行 话 来 襄 ， 正 
则 文字 残 是 “表示 正则 含义 的 双 引 号 字符 串 〈regex-aware double-quoted 
string) ”， 及 处 理 之 后 传递 给 正则 引擎 的 结果 。 正 则 文字 处 理 机 制 提供 
J 特殊 的 功能 来 构建 正则 表达 式 。 

准 例 来 说 ， 正 则 文学 提供 了 变量 插值 功能 。 如 末 变 量 $num 的 值 古 
20， 代 人 码 m/: {$num}: /得 到 的 束 是 ';，.{20}: 。 这 样 可 以 根据 需要 即 
时 构建 正则 表达 式 。 正 则 文字 的 为 一 功能 是 大 小 写 目 动 切 换 展开 ，\U..… 


\E 可 以 你 证 其 中 的 字母 均 为 大 写 。 比 如 ，m/abc\Uxyz\E/ 得 到 正则 表达 式 
abcXYZ 。 这 个 例子 有 点 做 作 ， 如 果 需 要 使 用 'abcXYZ ， 应 该 直接 输 
入 m/abcXYZ/， 但 是 这 种 功能 结合 变量 插值 束 很 有 用 : 如 果 变 量 $tag 包 
ARE E title”, 则 代码 mt< 人 AUStagYEB>} 得 到 “人 AZITLE>1。 
除 正 则 文字 之 外 还 有 什么 呢 ? 我 们 可 以 把 字符 串 《〈《 或 者 任何 表达 
式 ) 当 作 正则 运算 元 ， 比 如 : 
SMatchField = "*Subject:"; # 普通 字符 串 赋值 





if ($text =~ SMatchField) { 

当 $MatchField 用 作 = 一 的 运算 元 时 ， 它 的 值 束 补 解释 Cinterpreted ) 
为 正则 表达 式 。 这 里 只 能 “解释 ”普通 的 正则 表达 式 ， 所 以 不 支持 只 作用 
于 正则 文学 的 变量 插值 和 "\Q...\E o 

下 和 面 的 例子 值得 思考 ， 如 末 把 : 

$text=~$ MatchField 

BAN: 

$text=~m/$MatchField/ 

EREE IF. IK IEW CF RAS ANNAA 
$MatchField。 正 则 文字 中 插值 变量 的 值 不 会 被 当 作 正则 文字 处 理 ， 所 以 
ZE 内 的 \U..\E 和 $var 之 类 不 会 被 识别 《第 292 页 说 明了 正则 文字 的 处 理 
细节) 。 

如 果 正 则 表达 式 在 程序 的 执行 期 间 需 要 多 次 用 到 ， 那 么 正则 运算 元 
KPAI ER BRIE EE R E HI AE EPEAN DA a o 第 348 页 讨论 了 这 个 问 
je o 

正则 文字 文 择 的 特性 

正则 文字 提供 下 面 的 特性 : 

etait ”正则 表达 式 中 以 $ 和 @ 开 头 的 变量 会 被 瞧 换 为 实际 变量 
的 值 。$4 变 量 搬入 一 个 简单 的 纯 量 值 (scalar value) 。 以 @ 开 头 的 插入 数 
组 或 者 数组 的 一 部 分 ， 以 容 格 分 隅 各 个 元 素 〈( 其 实 古 以 $" 变量 作 分 隅 
伯 ， 它 的 默认 值 是 空格 〉。 

在 Perl 中 ，“‘%’ 引 入 一 个 散 列 变量 (hash variable) ， 但 是 在 字符 串 
中 插入 一 个 散 列 变量 并 没有 太 大 的 音义， 所 以 Perl 不 支持 % 插 值 。 


e 命 名 的 Unicode 字 人 符 如 果 程 序 中 包 仿 “use charnames': full'; ”, Wè 
可 以 用 \N{name} 序 列 引 用 Unicode 字 符 。 例 如 ，\N{LATIN SMALL 


LETTER SHARP SS} 多 配 “R”。 在 Perl 的 unicore 目录 下 的 UnicodeData.txt 


| 下 面 的 代 人 码 能 够 报告 文件 的 位 


use Config; 

print "SConfig{privlib}/unicore/UnicodeData.txt\n"; 

“use charmames': full’; "“*KRA Aid, Bese e ‘full WAI 
写 ， 果 真如 此 的 话 ，\N{...} 束 不 能 正常 工作 。 同 样 ， 如 果 使 用 了 下 面 介 
绍 的 正则 表达 式 重 载 ，NN{...} 也 不 能 正常 工作 。 

e 大 小 与 转换 前 绥 \4 和 Nu 能 够 把 后 面 的 字符 转换 为 小 与 或 大 与 形 陈 。 
通 币 我 们 使 用 此 功能 来 转换 插值 变量 的 第 一 个 字符 。 举 例 来 说 ， 如 果 弯 
量 $title 包含 “mr”，m/. .Augtitle.../ 驶 能 生成 正则 表达 式  ….MIT.… o Perl 
的 lcfirst ©) 和 ucfirst () KAE y EE BE. 

e 大 小 写 转 换 汇 围 L 和 \U 能 够 把 后 面 所 有 的 字 从 转换 为 小 写 或 大 
写 ， 其 作用 光 围 一 直到 表达 式 末 尾 ， 或 是 EE 为 止 。 同 样 是 $title，m... 
\US$title\E.../ 会 产生 正则 表达 式 『...MR.... 。Perl 的 lc O Muc O 函数 
提供 了 同样 的 功能 。 

我 们 可 以 把 这 两 者 结合 起 来 : 无 论 和 变量 $title 采用 怎样 的 字母 组 
47, m/...\L\u$title\E.../#8 2744 ...Mr.... 。 


oL TLRF Cquote) ”正则 表达 式 元 字符 (也 就 是 在 它 
们 之 前 放 一 个 反 斜 线 ， 傈 证 它们 只 作为 普通 的 字符 ) ， 其 作用 范围 直到 
字符 串 的 结尾 ， 或 者 直到 \E。 它 能 转 义 正则 表达 式 元 字符 ， 但 不 能 转 义 
表示 杰 量 插值 的 正则 文字 \U， 当 然 也 不 能 转 义 眉 。 奇 怪 的 是 ， 如 果 反 冬 
线 开 头 的 字符 序列 不 能 识别 例如 \F 或 者 \H， 反 和 斜 线 也 不 会 航 转 义 。 
即使 是 \Q..\E， 这 样 的 序列 也 会 导致 unrecognized escape” 警 告 。 

在 实践 中 ， 这 些 限 制 并 不 是 严重 的 缺陷 ，\Q..E 通常 用 于 引用 插值 
文本 ， 这 样 束 可 以 正确 转 义 所 有 的 元 字符 。 例 如 ， 如 采 $title 包 
含 “Mr.”， 那 么 代码 ny...\Qs$title\E.../ 就 会 生成 正则 表达 式 '...Mn.... ， 我 
们 妥 的 束 是 这 样 一 一 布 望 岂 配 的 是 $title 中 的 字符 ， 而 不 是 $title 中 的 正则 

如 果 你 希望 在 正则 表达 式 中 包含 菜 些 用 户 输 入 的 数据 ， 这 非常 有 
用 。 举 例 来 说 ，mAQ$UserInput\EVi 能 够 对 $UserInput 〈 作 为 字符 串 ， 而 
不 是 正则 表达 式 ) 中 的 字符 进行 不 区 分 大 小 与 的 搜索 。 

Perl 的 函数 quotemeta O 提供 了 与 \Q...\E 等 价 的 功能 。 

e 重 载 借助 午 载 ， 用 户 可 以 使 用 任何 期 户 的 方式 了 预 处 理 正则 文学 的 
文字 字符 。 这 古 概 念 值得 讨论 ， 但 是 目前 的 实现 还 有 诸多 限制 。 天 于 重 
载 的 细节 讨论 请 参见 第 341 幢 。 





使 用 自己 的 正则 表达 式 分 隅 符 

Perl 语 法 中 最 奇妙 〈 也 是 最 有 用 ) 的 特性 之 一 就 是 用 户 可 以 使 用 自 
己 的 正则 文学 分 隅 从 。 传 统 的 分 隅 和 从 是 和 斜 线 ， 例 如 my/.../、s/.../.../ 和 qr/ 
…/， 不 过 还 可 以 使 用 除数 字 、 字 母 和 空格 之 外 的 字符 。 浊 用 的 包括 : 


m! +! mõ} 
i, m<++*> 
gryse pga 


右边 四 个 是 特殊 的 分 隔 符 : 
e 右 边 的 四 个 例子 具有 不 同 的 开始 -结束 分 隅 从 ， 而 且 可 能 杉 套 (也 
束 是 说 ， 如 果 开 始 - 结 束 分 隅 从 罗 配 恰当 ， 表 达 式 中 容许 包含 与 分 隅 从 
一 样 的 字符 ) 。 因 为 圆 括 号 和 方 括 写 在 正则 表达 式 中 经 党 用 到 |， 
m C...) 和 m[...] 可 能 不 如 其 他 更 有 了 吸引 力 。 使 用 /x 修饰 从 时 ， 可 能 出 现 
下 面 的 形式 : 
m { 
regex # comments 
here # here 
bX; 
也 可 以 使 用 某 种 组 合 标记 regex， 另 一 组 〈 如 果 你 喜欢 ， 也 可 以 用 
同样 的 ) 标记 replacement。 例 如 
) 


已 刀 。。> (…， 
如 朵 这 样 做 了 ， 束 可 以 在 两 对 分 隐 从 之 间 插 入 空格 和 注释 。 第 319 


Tit Kelty 方太 


WH — DH SJ substitutioniz 5 7F WJreplacementiz JL « 
exfmatchia FKH, FS lEAN a haa AAA YME (GRIER 
的 匹配 ) » AAE RON UR PF matchig TINE C308) 。 
e288 OA fe Bl, EMFAZE AWN EF 
串 ”。 如 条 用 单 引 号 作 分 隔 符 ， 残 无 法 使 用 这 些 功能 。 使 用 om’... INAS 
会 进行 变量 择 值 ， 实 时 修改 文本 的 结构 〈 比 如 \Q..\E) 不 会 生效 ， 
MN{.….} 也 无 法 使 用 。 世 许 在 使 用 包含 多 个 @ 的 正则 表达 式 时 上 .很 有 价 
值 ， 因 为 这 样 可 以 不 需要 转 义 。 
如 采 进 行 match 操 作 ， 而 分 隔 人 符 是 和 糙 线 或 者 问号 ， 可 以 省 略 mm， 也 


Stext =~ m/***/; 
SEGRE =~ /*/s 


是 等 价 的 。 但 我 更 品 欢 明确 写 上 m。 
正则 文人 学 的 解析 方式 


How Regex Literals Are Parsed 

大 多 数 情况 下 ， 如 采用 户 “ 只 会 用 到 ”上 文 讲解 的 正则 文字 特性 ， 融 
不 需要 理解 Perl 将 它们 转换 为 真正 的 正则 表达 式 的 具体 细 市 。 束 这 一 点 
来 说 ，Perl 和 下 观 性 非 第 方便 ， 但 是 许多 时 候 ， 了 解 细 广 并 无 坏处 。 下 面 
列 出 了 各 种 处 理 的 顺序 : 

1. 找 到 结束 分 隔 竺 ， 谈 入 修饰 竺 “例如 /ii 之美 ) 。 下 面 的 处 理 束 能 
判断 是 否 采 用 了 /x 之 类 的 模式 。 

2. 变 量 插值 。 

3. 如 果 使 用 了 正则 表达 式 重 载 ， 正 则 文字 的 每 个 部 分 都 会 区 给 重 载 
了 程序 来 处 理 。 各 部 分 由 插值 变量 分 隔 ; 插入 的 全 是 无 法 重 载 的 。 

如 朱 正 则 表达 陈 没 有 进行 重 载 ， 处 理 \N{.…}。 

4. 应 用 大 小 与 转换 结构 《例如 \Q..AE) 。 

5. 把 结束 提交 给 正则 引擎 。 

以 上 是 程序 员 眼 中 的 处 理 ， 但 是 Perl 内 部 的 处 理 其 实 是 很 复杂 的 。 
单单 是 第 二 步 ， 束 必须 识别 正则 表 这 却 的 元 字符 ， 比 如 不 应 把 
this$lthat$ 下 男 线 的 那 部 分 识别 为 变量 。 


正则 修饰 符 


Regex Modifiers 

Perl 的 正则 运算 符 容 许 在 正则 文字 的 结束 分 隅 符 之 后 添加 正则 修饰 
ee Aum... s/.../.../i PM gr/... APD 。 所 有 运算 符 都 文 持 的 核心 修 
钱 符 一 共有 5 种 ， 详 见 表 7-3。 

头 四 种 在 第 3 章 已 经 介绍 过 ， 它 们 能 够 作为 模式 修饰 从 (二 135) 
或 者 范围 模式 修饰 符 〈 权 135) ， 在 正则 表达 式 之 中 使 用 。 如 果 正 则 表 
达 取 内 部 出 现 了 修饰 符 ，match 运 算 符 也 用 到 了 修饰 待 ， 则 正则 表达 却 
内 部 的 修饰 符 的 优先 级 更 高 〈 从 夯 一 方面 来 说 融 是 ， 一 旦 修饰 符 应 用 到 
正则 表达 陈 内 部 的 菏 些 元 素 ， 这 些 元 素 就 不 再 党 其 他 修饰 符 的 影响 ) 。 

表 7-3: 所 有 正则 运算 符 可 用 到 的 核心 修饰 符 


/i F110 进行 久 略 大 小 写 的 匹配 


/x 11] 宽松 排列 和 注释 模式 
/s 11] 点 号 通 配 模式 

/m F112 增强 的 行 锚 点 模式 
/0 F348 仅 编译 一 次 


a 与 效 靳 有 很 大 的 关系 。 此 问题 从 第 348 页 开 
HW) Wo 

如 采 需 要 使 用 多 个 修饰 和 侍 ， 只 需要 把 它们 并 排列 在 结束 分 隔 符 之 后 
即 可 ， 排 列 的 顺序 是 无 关 么 要 的 〈 注 3) 。 请 注意 ， 笠 线 本 映 不 是 修饰 
FF TRAY WE HEm/<title>/i, m\<title>|i, æm{ <title> }i, RZ 
m<<title>>i。 不 过 在 讲解 修饰 符 时 ， 通 行 的 做 法 是 加 上 一 个 矢 线 ， 
fF] LUE RAFI” © 


下 则 表达 式 相 天 的 Perl 教 义 


Regex-Related Perlisms 
ma ea 还 需要 掌握 许多 一 般 的 Perl 概 念 。 下 面 儿 节 的 内 
AN : 

eW HHA Ccontext) Perl 的 重要 概念 之 一 束 是 ， 许 多 图 数 和 运算 
符 在 不 同 应 用 场合 有 不 同 的 晶 义 。 例 如 ，Perl 的 while 循 环 希 望 接收 一 个 
纯 量 值 (scalar value) 作为 判断 条 件 ， 但 对 于 print 语 句 和 希望 接收 一 组 值 
(a list of value) 。 因 为 Perl 容 许 表 达 式 对 其 应 用 场合 进行 “ 啊 
ae respond) ， 同 样 的 表达 式 在 不 同 的 应 用 场合 可 能 得 到 截然 不 同 的 

e 芭 人 态 作 用 域 (dynamic scope) 大 多 数 编程 语言 都 支持 本 地 变量 和 
全 局 变量 ， 但 是 Perl 还 提供 了 男 一 种 复 林 功能 ， 称 为 动态 作用 域 。 动 态 
作用 域 会 临时 “你 护 ” 全 局 变量 ， 你 和 存 一 份 副 本 ， 稍 后 自动 恢复 。 这 个 复 
杂 的 概念 对 我 们 来 说 很 重要 ， 因 为 它 影响 到 $1 和 其 他 的 匹配 相关 变量 。 


表达 式 应 用 场合 


Expression Context 
context 对 Perl 来 说 是 很 重要 的 概念 ， 尤 其 对 match 运 算 和 从 来 说 更 是 如 
此 。 一 个 表达 式 可 能 出 现在 三 种 context 中 : 序列 dis) 、 纯 量 值 
(scalar) 或 者 空 (void) ， 它 们 表示 表达 式 期 望 接收 的 参数 类 型 。 所 
Lh, list context 说 明 表 达 式 期 望 获 得 一 个 序列 。scalar context 说 明 表 达 式 
期 望 获 得 单个 值 。 以 上 两 者 极为 钊 抑 ， 而 且 对 使 用 正则 表达 去 非常 有 价 
值 。void context 说 明 不 期 望 获得 任何 信 。 
看 下 和 面 两 个 赋值 : 
Ss expression one; 
Ga expression two; 
因为 $s 是 scalar 变 量 〈 它 用 来 保存 单个 的 值 ， 而 不 是 序列 ) ， 期 望 
简单 的 纯 量 仁 ， 所 以 第 一 个 表达 式 的 应 用 场合 为 scalar context. Alt, 
因为 @a 是 一 个 数组 ， 期 望 获 得 一 个 list， 第 二 个 表达 式 的 应 用 场合 为 list 
context。 即 使 这 两 个 表达 式 完 全 等 价 ， 也 可 能 返回 完全 不 同 的 结果 ， 产 
生 不 同 的 影响。 上 其 体 情 况 依 表达 式 而 定 。 
ZSA, localtime K žin RH Æ list context 中 ， 会 返回 一 组 值 ， 表 
示 当 前 年 、 月 、 日 、 时 。 但 如 果 用 在 scalar context 中 ， 则 返回 文本 类 型 


的 当前 时 间 ， 比 如 ‘Mon Jan 20 22: 05: 15 2003’. 

男 一 个 例子 是 二 MYDATA 放 之 类 的 W/O 运算 从 ， 在 scalar context 
中 ， 它 返回 文件 的 下 一 行 ， 但 是 在 list context, BERA H FAS) 
行 。 

束 像 localtime 和 IO 运算 符 一 样 ， 许 多 Perl 的 结构 会 根据 应 用 场合 的 
不 同 返回 不 同 的 值 ， 正 则 运算 符 同 样 如 此 。 合 match 运算 符 m/.../ 来 
说 ， 有 时 候 它 会 简单 地 返回 true/false 值 ， 有 时 候 返 回 一 组 匹配 结果 。 所 
有 的 细节 都 会 在 本 章 讲 解 。 

mee ee IE Wl AeA Ty 

不 是 所 有 的 正则 表达 式 天 生 都 能 区 分 场合 的 ， 所 以 ， 如 果 茶 个 应 用 
场合 中 正则 表达 式 无 法 提供 期 望 的 返回 类 型 ， 束 要 按照 Perl 的 规定 处 
理 。 为 了 把 方 检 插入 圆 孔 ，Perl 会 “ 强 转 (contort) ”这 个 值 。 如 果 在 list 
context 中 返回 的 是 scalar 值 ，Perl 会 生成 只 包含 单个 元 素 的 list。 这 样 
@a=42 ST @a= (42) 。 
ee etre, E RI 

$var=(Sthis, &is,OxA,'list'); 

逗号 运算 付 返 回 最 后 的 元 素 ‘ist* 给 $var。 如 果 给 定 的 古 一 个 数组 ， 
例如 $var=@array， 则 返回 数组 的 长 度 。 

其 他 语言 用 不 同 的 术语 摘 述 这 种 处 理 ， 例 如 修正 〈cast) 、 提 示 
(promote) 、 强 制 转 换 〈coerce) Wigi (convert) ， 但 是 我 认为 这 些 
词 都 已 经 具有 了 目 己 的 意义 〈 有 点 令 人 讨厌 ) ， 不 适合 描述 Perl 的 做 
法 ， 所 以 我 使 用 “ 强 转 (contort)〉”。 


动态 作用 域 及 正则 匹配 效应 


Dynamic Scope and Regex Match Effects 

Perl 的 变量 分 为 两 关 〈 全 局 变量 和 私有 变量 ) ， 动 态 作 用 域 是 正确 
理解 它们 的 重点 ， 研 究 正 则 表达 却 时 也 需要 关注 些 概念， 因为 它 基 系 到 
AAA 

全 局 和 私有 变量 

总 的 来 说 ，Perl 提供 了 两 种 变量 : 全 局 的 和 私有 的 。 私 有 变量 使 用 
my (...) 来 声明 ， 全 局 变量 不 需要 声明 ， 在 使 用 时 会 目 动 出 现 。 全 局 
变量 通 第 在 程序 的 任何 地 方 都 是 可 见 的 ， 而 私有 变量 ， 按 照 语言 的 规定 
只 有 在 它们 所 属 的 代码 块 之 内 才 是 可 见 的 。 也 束 古 说 ， 只 有 私有 变量 声 


明 所 在 的 代码 块 之 内 的 Perl 人 代码， 能 够 访问 私有 变量 。 

全 局 变量 的 使 用 则 很 普通 ， 只 是 有 的 特殊 变量 不 太 好 理解 ， 例 如 
$1、$_、Q@ARGB 之 类 。 普 通用 户 的 变量 是 全 局 的 ， 际 非 它 们 以 my 来 
声明 ， 人 否则 即使 它们 “看 上 去 ?是 私有 的 ， 也 是 全 局 变量 。 按 照 Perl 的 规 
定 ，Package Acme: : Widget 中 的 全 局 变量 $Debug， 虽然 有 完整 的 限定 
名 $Acme: : Widget: : Debug， 仍 然 是 一 个 全 局 变量 。 如 果 出 现 了 了 use 
strict; ， 则 所 有 不 包括 特殊 的 ) 全 局 变量 必须 使 用 完整 的 限定 名 ， 或 
者 通过 our 来 声明 (our 声明 一 个 名 称 (name) ， 而 不 是 一 个 新 变量 ， 请 
ZB Perl MM) 。 

使 用 动态 作用 域 的 值 

动态 作用 域 (dynamic scoping) 是 个 值得 一 提 的 概念 ， 很 少 有 编程 
语言 提供 这 种 功能 。 下 文 会 讲解 它 与 正则 表达 式 的 关系， 简单 地 说 ， 动 
态 作 用 域 可 以 让 Perl 保 存 全 局 变量 的 一 个 副本 ， 在 茶 个 代码 块 中 修改 此 
副本 ， 退 出 之 后 目 动 恢复 原来 的 值 。 保 存 副本 的 操作 融 称 为 生成 动态 作 
用 域 (creating anew dynamic scope) ， 或 者 本 地 化 Clcalizing) 。 

使 用 动态 作用 域 的 原因 之 一 是 为 了 临时 改变 茶 些 保存 在 全 局 变量 中 
的 某 些 全 局 状态 。 举 例 来 说 ，package Acme: : Widget 提供 了 一 个 调试 
标志 位 (flag ) , 我 们 可 以 修改 全 局 变量 $Acme: 3 Widget: í Debug% 
司 用 或 者 俘 用 调试 功能 。 下 面 的 代码 可 以 临时 改变 此 标志 位 : 


local ($Acme::Widget::Debug) = 1; # 确保 启用 
# 此 时 Acme: :Widget::Debug 已 启用 ， 可 以 调试 


# SAcme::Widget::Debug 现在 恢复 到 原来 的 值 

local 疯 数 的 命名 很 成 问题 ， 但 它 生 成 了 一 个 新 的 动态 作用 域 。 调 用 
local 并 没有 创造 新 的 变量 ，local 是 行为 ， 而 不 是 声明 。 在 全 局 变量 之 
前 ，local 做 了 三 步 处 理 : 

1. 在 内 部 保存 变量 值 的 副本 ; 

2. 把 新 值 赋予 到 变量 (无 论 是 undef 还 是 传 给 local 的 值 〉; 

3.local 代 人 码 块 执行 结束 之 后 ， 把 变量 恢复 到 之 前 的 值 。 

也 束 是 说 ，“Jocal” 指 的 是 对 变量 的 修改 的 持续 时 | 则 。 对 本 地 化 的 变 
旦 来 说 ， 持 续 时 间 就 是 代码 块 执行 的 时 则 。 如 果 代 码 块 中 调用 了 子 程 
序 ， 本 地 化 的 值 仍然 保留 (毕竟 ， 变 量 仍 然 古 一 个 全 局 变量 ) 。 它 与 非 
RN E: 在 代码 块 执行 完成 之 后 ， 之 前 的 值 会 
做 恢复 。 


local 对 全 局 变量 的 目 动 保存 和 恢复 比 想象 的 要 复杂 。 请 参考 表 7-4 
All, FE S AEA a A Ab SE 

为 方便 起 见 ， 我 们 也 可 以 给 本 地 变量 赋 一 个 值 
local ($SomeVar) ， 这 等 于 把 undef 赋 值 给 $SomeVar。 如 果 不 使 用 括 
号 ， 表 示 强 制 使 用 scalar context. 

举 个 实际 的 例子 ， 我 们 需要 调用 一 个 写 得 很 灶 糕 的 图 数 ， 而 它 会 产 
生 许 多 “Use of uninitialized value” 的 警告 。 优 秀 的 Perl 程 序 员 都 会 使 用 
Perl 的 -w 选 项 来 解决 这 个 问题 ， 但 是 库 的 作者 

表 7-4: local 的 含义 


普通 Normal 程序 等 价 程序 
| | 
local ($SomeVar); # Save copy my STempCopy = $SomeVar; 
sSomeVar = undef; 


SSomeVar = 'My Value'; SSomeVar = 'My Value'; 


bs onieVar = $TempCopy; 
} + 自动 恢复 到 之 前 的 什 | 


显然 没有 。 你 对 这 些 警 告 非 党 恼火 ， 但 是 如 采 不 能 修改 程序 库 ， 有 
什么 其 他 简便 办 法 来 代 蔡 -w 吗 ?这 时 候 可 以 使 用 对 $ 和 AW 的 调用 的 local， 
即时 关闭 警报 〈AW 可 以 表示 为 两 个 字符 ， 胶 字符 和 “WwW" ， 也 允 是 
ctrl+W ) 。 

{ 
local $^W = 0; # 确保 关闭 警报 
UnrulyFrunerien (e); 

} 

# 退出 代码 块 ， 把 $^ 册 恢复 到 原来 的 值 

无 论 全 局 变量 SAW 是 什么 值 ， 调 用 local 保 和 存 都 会 为 其 你 存 一 份 内 部 
副本 。 然 后 SW 被 用 户 置 为 0。 上 面 提 到 的 粳 糙 程序 在 执行 时 ，Perl 检 
发 现 其 值 为 0， 束 不 会 友 出 警报 。 在 函数 返回 时 ， 新 值 0 仍 然 有 
BM o 

这 样 看 来 ， 不 用 local 的话 似 乎 也 没有 问题 。 不 过 ， 在 子 程序 返 
回 ， 代 码 块 退 出 时 ，$^AW 会 恢复 到 之 前 的 值 。 这 种 改变 是 本 地 的 、 即 时 
的 ， 只 在 代码 块 内 部 生效 。 按 照 表 7-4 右 侧 的 做 法 ， 用 户 可 以 手工 生成 
和 返回 副本 ， 达 到 同样 的 效果 ， 但 是 local 更 为 方便 。 

考虑 在 其 他 情况 下 会 发 生 什么 ， 比 如 用 my 人 符 代 local QE4) > my 


会 新 建 一 个 变量 ， 其 初始 值 是 undef。 只 有 在 声明 的 代码 块 中 才 可 见 
(也 就 是 说 ， 在 my 和 它 所 在 的 代码 块 结束 之 间 ) 。 它 不 会 改变 、 修 
改 ， 或 以 其 人 方式 引用 和 影响 其 他 变量 ， 包 括 可 能 存在 的 同样 名 字 的 全 
局 变量 。 新 建 的 变量 在 程序 的 其 他 部 分 都 不 可 见 ， 包 括 在 那个 糟 糙 的 程 
序 内 。 这 样 新 的 SW 的 确 被 置 为 0， 但 永远 不 会 再 使 用 或 者 引用 ， 所 以 
它 完 全 是 白费 工夫 (执行 粮 糕 的 程序 时 ，Perl 根 据 与 其 无 天 的 全 局 伙 量 
SAW HE FE IRE) 。 

更 好 的 比喻 : AIE A RE 

AY XI ELAR local, “EXT ARI IB DOE FE PTE TN CR 
是 把 新 值 投影 到 原 变 量 之 上 ) 。 用 户 〈( 还 包括 能 看 到 的 任何 人 ， 例 如 子 
程序 和 信号 处 理 程序 ) 会 看 到 这 些 狐 的 值 。 在 代码 块 结束 之 前 ，local 的 
修改 会 取代 之 前 的 值 。 退 出 之 后 ， 这 种 透明 特性 会 目 动 消除 ， 也 惑 是 取 
消 local 进 行 的 所 有 修改 。 

相 比 “保存 一 个 内 部 副本 ， 这 个 比喻 更 接近 现实 。 使 用 local 并 不 会 
生成 一 个 副本 ， 而 是 在 访问 变量 时 ， 使 用 新 设置 的 值 〈 即 屏 秀 诛 来 的 
值 ) 。 退 出 代码 块 之 后 会 抛 友 新 设置 的 值 。 调 用 local 时 ， 新 值 是 手动 设 
置 的 ， 但 我 们 要 讲解 这 些 细 市 的 原因 在 于 : 正则 表达 式 的 伴随 效应 变量 
(side-effect variables) 会 自动 使 用 动态 作用 域 。 

正则 表达 式 的 伴随 效应 和 动态 作用 域 

正则 表达 式 与 动态 作用 域 有 什么 关系 呢 ?” 关 系 很 大 。 作 为 伴随 效 
应 ， 许 多 变量 一 一 例如 $& (引用 匹配 的 文本 ) 和 $1 (引用 第 一 组 括号 
内 表达 式 匹 配 的 文本 ) 一 一 会 在 匹配 成 功 时 目 动 设置 。 在 下 一 会 详细 
Ci 

这 种 设计 的 好 处 在 于 ， 每 次 调用 子 程序 都 要 局 动 新 的 代码 块 ， 也 就 
是 为 这 些 变 量 提 供 了 新 的 动态 作用 域 范 围 。 因 为 在 代码 块 之 前 的 值 会 在 
代码 块 执行 完 之 后 恢复 〈 也 融 是 子 程序 返回 时 ) ， 子 程序 不 能 改变 调用 
方 能 看 到 的 值 。 

来 看 个 例子 : 

i£ 4 m {=} ) 
{ 

DoSomeOtherStuff(); 

print "the matched text was $1.\n"; 
} 


因为 $1 ”的 值 在 进入 代码 块 时 进行 了 动态 作用 域 处 理 ， 这 上 段 代 人 码 不 
关心 也 不 必 关 心 ， 子 数 DoSomeOtherStuff 是 否 改 变 了 $1 的 值 。 此 隐 数 对 


$1 的 任何 改动 都 只 在 函数 定义 的 代码 块 内 部 ， 或 者 函数 的 子 代码 块 中 生 
效 。 所 以 ，DoSomeOtherStuff 不 会 影响 print 接 收 的 $1 的 值 。 
目 动 使 用 动态 作用 域 很 有 有 用， 虽然 有 时 候 不 那么 明显 : 
if ($result =~ m/ERROR=( .*)/) { 
warn "Hey, tell SConfig{perladmin} about $1!\n"; 

} 

PEERI Config 定义 了 一 个 关联 数组 (associative array) 
%Config， 其 成 员 $Config-{perladmin} 保 存 本 地 Perlmaster 的 E-mail 地 
址 。 如 果 $1 没 有 使 用 动态 作用 域 ， 这 段 代 人 码 束 很 难 理解 ， 因 为 %Confg 
是 一 个 绑 定 变量 (tied variable〉。 也 束 是 说 ， 对 它 的 任何 引用 都 童 味 大 
虹 后 的 于 程序 调用 ， 用 $Config{..:} 进 行 正 则 表达 去 匹配 时 ，Config 中 
的 子 程序 返回 对 应 的 什 。 这 次 匹配 及 生 在 上 一 行 的 匹配 和 对 $1 的 使 用 中 
半 ， 所 以 如 采 $1 没 有 使 用 动态 作用 域 ， 它 的 值 会 被 修改 。 所 以 ， 
$Config{...} 中 对 $1 的 任何 修改 都 被 动态 作用 域 安 全 地 保护 了 起 来 。 

动态 作用 域 还 是 词法 作用 域 

如 果 使 用 恰当 ， 动 态 作 用 域 能 提供 许多 便利 ， 但 是 滥用 动态 作用 域 
会 禹 来 无 休止 的 哑 梦 ， 因 为 阅读 程序 的 人 很 难 理解 ， 分 散在 散落 的 
local、 子 程序 和 本 地 变量 引用 之 则 的 复 林 交互 。 

兽 说 ，my C...) 声明 会 在 词法 范围 (exical scope) 内 创造 一 个 
私有 杰 量 。 与 私有 变量 的 词法 范围 对 应 的 是 全 局 变量 的 范围 ， 但 是 词法 
苑 围 与 动态 作用 域 没 有 关系 〈 仅 有 的 联系 是 : 不 能 对 my 变量 调用 
local) 。 请 记 住 ，local 只 是 行为 (action) ， 而 my 既是 行为 ， 又 是 声 
明 ， 这 很 重要 。 


匹配 修改 的 特殊 变量 


Special Variables Modified by a Match 

ACTH AY VL Bt o> RE- ZEA SA eee, EE S BE AS 
作用 域 。 如 果 [ 匹 配 不 成 功 ， 这 些 值 永远 也 不 会 改变 。 在 需要 的 时 候 ， 它 
们 会 设置 为 空 字 从 串 〈 不 包括 任何 字符 的 字符 串 ) 或 者 undefind (“ARE 
义 ”， 一 个 “没有 值 ” 的 值 ， 与 空 字符 串 类 似 ， 但 测试 时 两 者 不 相等 〉。 
表 7-5 给 出 了 右 干 例子 。 

详细 地 说 ， 匹 配 完成 之 后 会 设置 这 些 变量 : 

$& 正 则 表达 式 所 匹配 文本 的 副本 。 从 效率 方面 考虑 (参见 第 356 页 
的 讨论 ) ， 最 好 不 要 使 用 这 个 变量 (还 包括 下 面 介绍 的 $9 和 $) 。 一 旦 
匹配 成 功 ，$& 残 不 会 是 未 定义 状态 ， 尽 官 它 可 能 是 空 字 符 串 。 


表 7-5: 匹配 后 特殊 变量 的 说 明 


如 下 匹配 完成 之 后 

"Pi is 3.14159, roughly" =~ E O, | 
设置 了 下 面 的 特殊 变量 

变量 3X 

S` 匹配 文本 之 前 的 文本 

T 匹配 文本 

cy 匹配 文本 之 后 的 文本 

$1 第 ] 组 括号 匹配 的 文本 

$2 第 2 组 括号 匹配 的 文本 

$3 第 3 组 括号 匹配 的 文本 

$4 第 4 组 括号 匹配 的 文本 

$+ 编号 最 大 的 括号 匹配 的 文本 

SAN 最 后 结束 的 括号 匹配 的 文本 

@- 目标 文本 中 各 匹配 开始 位 置 的 偏 移 值 数组 


a4 目标 文本 中 各 匹配 结束 位 置 的 偏 移 值 数组 


2 





3 4 4 31 
(MaE XO) PY) ABT 3 


3414139 

, roughly 

3.14159 

undef 

3.18159 

.14159 

.14159 

3.14159 

(6, 6, undef, 6, 7) 
(Lar £3, Wider, 13, 13) 


S 在 目标 文本 中 匹配 开始 之 前 (左边 ) 文本 的 副本 。 如 果 使 用 /g 修 


饰 件 ， 你 可 以 期 组 $ 


的 起 点 是 开始 妾 试 位 置 的 文本 ， 但 它 每 次 部 是 从 整个 字符 串 的 开始 


位 置 开 始 的 。 如 末 匹 
配 成 功 ，” 肯 定 不 会 是 未 定义 状态 。 


?保存 目标 文本 中 匹配 成 功 文本 之 后 (右边 ) 的 文本 的 副本 。 如 
朱 匹 配 成 功 ，” 肯 定 不 会 是 未 定义 状态 。 匹 配 成 功 之 后 ， 字 符 串 


"S se s" 就 是 目标 字符 串 的 副本 GEES) 。 
$1, $2. $3, nae 


对 应 第 1、2、3 HARER SVLACIN CA CER, EASO, 
因为 它 是 脚本 的 名 字 ， 与 正则 表达 式 无 和 天) o WR EMD VINES TER 
达 云 中 不 存在 ， 或 者 没有 实际 参与 匹配 ， 则 设置 为 未 定义 状态 。 


用 。 它 们 还 能 在 动态 正则 结构 或 者 舱 入 代码 中 使 用 (号 327) 。 在 正则 


表达 式 中 使 用 这 些 变 量 是 没 多 少 意 义 的 《因为 已 经 有 了 了"\1 之 类 ) 。 请 
参考 第 303 页 的 “在 正则 表达 式 中 使 用 $1”。 

| Awt) Ao Cw) + 的 区 别 可 以 用 来 说 明 $1 的 设置 方式 。 两 个 
表达 式 剖 能 匹配 同样 的 文 注 5: 事实 上 ， 即 使 目标 字符 串 是 未 定义 的 ， 
但 能 匹配 成 功 〈 虽 然 不 太 现 实 ， 但 有 可 能 ) ，"5 3&5" 是 一 个 空 字 符 
串 ， 而 不 是 未 定义 。 只 有 在 这 种 情况 下 ， 两 者 才 不 一 样 。 

本 ， 但 是 它们 的 区 别 在 于 括 亏 内 的 子 表 达 式 匹配 的 内 容 。 用 这 个 表 
达 式 L 配 字符 串 ‘tubby’?， 第 一 个 表达 式 的 $1 的 内 容 古 ‘tubby”， 而 第 二 个 
表达 式 中 的 $1 只 包含 y:; 在 ' Ow) + 中 ， 加 号 在 括号 外 面 ， 所 以 每 次 
IA ARS TTR, SIR BSF o 

还 需要 注意 的 是 ' (x) ? M a? ) 的 差别 。 前 一 个 表达 式 中 括 
写 及 其 捕获 内 容 不 是 必然 出 现 的 ， 所 以 $1 可 能 是 ‘x?， 或 者 是 未 定义 ， 但 
Cx? ) 中 括号 在 匹配 的 外 和 面 匹配 的 内 容 不 是 必然 出 现 的 ， 但 匹 
配 必 须发 生 。 如 果 整 个 表达 却 匹 配 成 功 ， 这 部 分 的 匹配 必然 会 发 生 ， 尽 
‘eax? MEMET. MUUE O? ) 中 ，$1 可 能 是 ‘x’ 或 者 是 空 
字 从 串 。 下 表 给 出 了 一 些 例子 : 


实例 1 

Wee ew mys (AD) sy FAP ft - 

taa ae wE (ayes y ka |" 

ipe" =~ m/: (A?) :/ "Word: =~ m/s: (\w*) :/ 
aA 


Wee = m/s (A) Wf 


MERAY DA, WR ris BES FS RS RAS, UT A aS ER RP 
我 们 的 意图 。 在 所 举 的 例子 中 ， 增 加 的 丘 喜 对 整体 匹配 没有 影响 《整体 
匹配 是 不 变 的 ) ， 其 中 唯一 的 区 别 束 是 $1 设 置 的 伴随 效应 。 

$+ ”表示 $1、$2 等 风 配 过 程 中 明确 设 定 的 ， 编 写 最 大 的 变量 的 副 
本 。 在 下 面 的 情况 中 会 有 用 : 


Surl == mi 








href \s* = \s* # 匹配 "href = "， 然 后 是 它 的 值 ... 
La Sess) 7 # 双 引 号 字符 串 ， 或 者 ... 

| “WL "J*}) ” # 单 引 号 字符 串 ， 或 者 ... 

| ([^'"<>]+) ) # 非 引 号 形式 的 值 


FIX; 


如 朱 没 有 $+， 我 们 可 能 需要 依次 检查 $1、$2 和 $3， 才 能 找 出 明确 设 


BART. 

如 采 正 则 表达 式 中 没有 捕获 型 括号 《或 者 在 匹配 中 没有 用 到 ) ， 则 
这 个 值 为 未 定义 。 

SAN 了 最 后 结束 的 ， 在 匹配 中 明确 设 定 的 括号 匹配 的 文本 的 副本 《 明 
确 设 定 的 $1 等 变量 中 ， 闭 括号 在 最 后 ) 。 如 末 正 则 表达 式 中 没有 捕获 型 
括号 《或 者 匹配 中 没有 用 a 到) ， 则 其 人 为 未 定义 。 第 344 页 开头 有 个 恰 
当 的 例子 。 

@-M@+ 

表示 各 捕获 型 括号 所 匹配 文本 的 起 始 和 结束 位 置 在 目标 文本 中 仿 移 
值 的 数组 。 使 用 起 来 可 能 有 点 迷惑 ， 因 为 它们 的 名 字 比 较 怪 寞 。 两 个 数 
组 的 第 一 个 元 素 都 对 应 整体 匹配 。 也 就 是 说 ， 通 过 $-[0] 访 问 到 的 @- 的 
第 一 个 元 系 ， 古 整个 风 配 在 目标 字符 串 中 的 偏 移 值 ， 即 : 

Stext = "Version 6 coming soon?"; 


Stext =~ m/\dt+/; 


$-[0] 的 全 为 8， 代 表 匹 配 从 目标 字符 串 的 第 8 个 位 置 开 始 (在 Perl 
H, WMA TELM 0 开始 ) 。 

@+ 的 第 一 个 元 系 通 过 $+[0] 访 问 ， 表 示 对 应 匹配 文本 结束 位 置 的 偶 
移 信 。 在 上 例 中 其 全 为 9， 表示 整体 匹配 结束 于 目标 字符 串 的 第 9 个 字 
符 之 前 。 所 以 ， 如 果 $text 没 有 变化 ，substr 〈$text，$-[0]，$+[0]-$-[0] ) 
束 等 于 $&， 但 没有 $& 那 样 的 性 能 缺陷 (二 356) ， 下 例 给 出 了 @- 的 位 
FL FA Ys: 

1 while $line=~s/\t/"x (8-$-[0]%8)/e; 

它 会 把 给 定 文本 中 的 制 表 符 (tab〉 蔡 换 为 合适 长 度 的 空格 序列 

( 注 6) à- 

两 个 数组 中 接 下 来 的 元 率 分 别 对 应 各 捕获 分 组 的 开始 位 置 和 结束 位 
置 的 偶 移 什 。$-[1 和 $+[1 对 应 $1，$-[2] 和 $+[2] 对 应 $2， 依 次 次 推 。 

SAR 这 个 变量 保存 最 近 执 行 的 谍 入 代码 的 结 未 ， 如 末 仍 入 代码 结构 
作为 '(? ifthenlelse) AERA) (140) 中 的 计 部 分 ， 则 不 设 定 $AR。 
在 正则 表达 式 内 部 〔 即 在 租 入 代码 或 者 动态 正则 结构 守 327 H), ER 
目 动 根据 匹配 的 各 部 分 进行 本 地 化 处 理 ， 所 以 因为 回 渊 而 “交还 ”的 代 伍 
对 应 的 $AR 的 值 会 疏 放 和 并。 换 一 种 说 法 束 是 ， 它 保存 引擎 到 达 当 前 状态 
的 工作 路 径 中 “了 最 近 ” 的 伍 。 

如 果 正 则 表达 式 根 据 /g 修 饰 从 重复 使 用 ， 那 么 每 次 循 坏 都 会 重新 设 
置 这 些 变量 。 也 就 是 说 可 以 在 s/.../.../g 中 使 用 $1， 因 为 每 次 匹配 时 它 的 


值 部 人 不 一 样 。 
在 正则 表达 式 中 使 用 $1 


Perl 手 册 专 门 提 到 ， 在 正则 表达 式 外 部 ， 不 能 用 1 反问 引用 《而 应 
该 使 用 $1) 。 变 量 $1 对 应 上 次 成 功 匹 配 中 的 某 个 固定 字符 串 。 AL 则 是 
正则 表达 式 元 字符 ， 它 对 应 正则 引擎 过 到 人 \1 时 第 一 组 捕获 型 括号 捕获 
的 文本 。 在 NFA 的 回 济 过 程 中 ， 它 的 值 可 能 会 变化 。 

与 之 对 应 的 问题 是 ， 正 则 运算 元 中 是 否 能 够 使 用 $1 之 类 的 变量 。 通 

常 ， 在 内 鹃 代码 或 者 动态 正则 结构 (5327) 中 可 用 ， 在 其 他 情况 下 就 
没什么 意义 。 出 现在 运算 元 中 “表达 式 部 分 ”的 $1 与 其 他 变量 一 样 处 理 : 
在 匹配 或 替换 操作 开始 时 插值 。 也 就 是 说 ， 对 正则 表达 式 而 言 ，$1 与 当 
前 的 匹配 没什么 关系 ， 它 属于 上 一 次 匹配 。 


qr/.. ABTS Sregexx} A 


The qr/.../Operator and Regex Objects 

在 第 2 章 和 第 6 章 已 经 简要 介绍 过 (S76, 277) 一 元 运算 符 gr/.../， 
其 运算 元 为 正则 表达 式 ， 返 回 regex 对 象 。 返 回 的 对 象 可 以 被 之 后 的 正 
则 运算 从 用 来 岂 配 、 蔡 换 、 分 割 ， 或 者 可 以 作为 其 他 的 更 长 表达 式 的 一 
部 分 。 

regex 对 象 主 要 用 来 把 正则 表达 式 封 溪 为 一 个 里 元 ， 构 建 大 的 正则 
KAN UKREA EEREN mE heme, HI P 
oF 

291 页 已 经 介绍 过 ， 有 用户 可 以 使 用 目 己 的 分 隔 符 ， 例 如 qr{.…} 或 者 


qr! ...! 。 它 还 文 持 核 心 修饰 从 i、/x、/s、/m 和 和 /0。 
构建 和 使 用 regex 对 和 象 


Building and Using Regex Objects 
下 面 的 表达 式 来 日 第 2 革 (376) : 


my $HostnameRegex = qr/[-a-z0-9]+(? :\.[-a-z0-9] +)*\.(?: com|edu|info) /i; 


my SHttpUrl = qr{ 


http:// $HostnameRegex \b # Hostname 
(2% 
f [I # 可 能 出 现 的 path 
CCH sn See dt # 不 容许 以 [.，3?!] 结 尾 


)? 


B47 RAS FEE Bt EL Pt RS OY fd ATE WU eA SS Se Aregex xf 
象 ， 你 存 到 变量 $Hostname-Regex 中 。 下 一 行使 用 该 变量 构建 风 配 HTTP 
po Ar 你 存 到 $HttpUrl 中 。 构 建 完成 之 后 束 可 以 以 多 种 方式 
用 ， 例 如 : 


if ($text =~ SHttpUrl) { 
print "There is a URL\n"; 


用 来 检测 ， 或 者 : 


while ($text =~ m/(SHttpUrl)/g) { 
print "Found URI: Si\n"; 
} 
用 来 搜索 和 显示 所 有 的 HIPP URL. 
如 有 末 投 照 第 5 和 草 的 讲解 C205) 修改 $HostnameRegex: 
my SHostnameRegex = qr{ 
# ”一 个 或 多 个 点 号 分 隔 部 分 


(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9] {0,61}[a-z0-9]\. ) * 
# 后 级 
(7: com|edu|gov|int|mil|net|org|biz|info|:::|aero|[a-z][a-z] ) 


ees 


它 的 使 用 方式 与 之 前 的 例子 相同 《开头 没有 人 和 A ， 结 尾 没 有 ' 和 $$， 也 
没有 捕获 型 括号 ) ， 所 以 ， 我 们 的 符 换 不 党 限制 。 这 样 能 得 到 更 准确 的 
$HttpUrl. 

匹配 模式 《即使 不 设置 ) 是 不 可 更 改 的 

qr/.../ 文 持 292 页 介绍 的 核心 修饰 符 。regex 对 象 一 旦 构建 完成 ， 对 应 
的 匹配 模式 就 不 能 更 改 了 ， 即 使 regex 对 象 所 在 的 m/.../ 有 自己 的 修饰 符 
tHe WER TE PCBS AN EK : 


my SWordRegex = qr/\b Nw+ \b/; # 这 里 忘 了 添加 修饰 符 /x 


if ($text =~ m/^ (SWordRegex) /x) { 
print “found word at start of text: Slin"; 
} 
这 里 希望 用 入 修饰 $WordRegex 的 匹配 模式 ， 但 是 这 并 不 管用 ， 因 为 
在 $WordRegex 生 成 时 修饰 符 〈 即 使 不 设置 ) 被 锁定 在 qr/.../ 中 。 所 以 ， 
修饰 符 必 须 在 恰当 的 时 候 使 用 。 
下 面 的 代码 则 没有 问题 : 
my SWordRegex = gr/\b Nw+ \b/x; # AMA! 
if ($text =~ m/*(SWordRegex)/) { 


print “found word at start of text: lyn"; 
} 


现在 来 比较 开始 的 代码 和 下 面 的 代码 : 


my SWordRegex = '\b \wt \b'; # Sid fhe 
if ($text =~ m/^ (SWordRegex)/x) { 

print “found word at start of text: plin" 
} 


这 段 代 码 没 问题 ， 尽 管 $wordRegex 生 成 时 没有 任何 修饰 符 。 因 为 
$WordRegex 古 普通 变量 ， 保 存 普 通 的 字符 串 ， 用 作 my/.../ 的 插值 。 因 为 
各 方面 的 原因 ， 用 字符 串 构 建 正 则 表达 式 比 regex 对 象 要 厅 烦 得 多 ， 比 
如 在 这 个 例子 中 ， 必 须 记 住 $SWordRegex 必 须 和 /x 一 起 使 用 才 行 。 

我 们 也 可 以 只 使 用 字符 串 解 决 这 个 问题 ， 只 需要 在 表达 式 中 设 定 模 
式 修饰 沁 围 (s135) : 

my S$SWordRegex = '(?x:\b \w+ \b)'; # ii Fe 


if ($text =~ m/*(SWordRegex)/) 1 
print “found word at start of text: S1\n"; 
} 


此 时 ，my/.../ 的 正则 文字 插值 之 后 ， 正 则 引擎 接收 到 入 〈〈? x: \b 
\w+\b) ) ， 这 就 是 我 们 期 望 的 结 

其 实 这 就 是 生成 regex 对 象 的 逻辑 过 程 ， 只 是 regex 对 象 对 于 每 个 模 
式 修饰 符 ， 都 明确 定义 了 “on” 或 “off”* 的 状态 。 用 grAb-\w+\b/x 生 成 '(? 
x-ism: \b"\Ww+"\b) ，。 请 注意 模式 修饰 从 的 设 定 '(? x-ism: ...) ,， 这 
里 局 用 了 /x， 禁 止 了 i、/s 和 /m。 也 就 是 说 ， 无 论 古 否 指 定 gr/.../ 的 修饰 
符 ，regex 对 象 总 是 “锁定 ”在 某 个 模式 下 。 


I PR 


探 完 regex 对 人 象 
Viewing Regex Objects 
HUM ve Y regex Xt RA EW RIESAME Am }——P] C 
x-ism: ...) 一 的 逻辑 过 程 。 如 果 在 Pen 期 望 接收 字符 串 的 地 方 使 用 
regex 对 象 ，Perl 会 把 它 转换 为 对 应 的 文本 表示 方式 ， 例 如 : 


% perl -e 'print qr/\b Nw+ \b/x, "\n"' 
(?x=isms\b \wt \b) 


这 就 是 第 304 页 的 $HttpUrl 的 转换 结果 : 





(?ix-sm: 
http:// TS 
# 一 个 或 多 个 点 号 分 隔 部 分 


(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9]{0,61}[a-z0-9]\. ) * 
# 后 级 
(?: com|edu|gov|int|mil|net|org|biz|info|-:::|aero|[a-z][a-z] ) 
) \b # hostname 
oe 
/ [-a-z0-9-:\@&?=+,.!/~*'S\S]* # 可 能 出 现 的 path 
(25) Leg Ed) # 不 能 以 [.?1!] 结 尾 


I2 


把 regex 对 象 转换 为 字符 串 的 功能 在 调试 时 很 有 用 。 
Fe regex} 32 $e fay BL 


Using Regex Objects for Efficiency 

使 用 regex 对 象 的 主要 原因 之 一 是 便于 控制 。 为 了 提高 效率 ，Perl 会 
把 正则 表达 式 编译 为 内 部 形式 。 第 6 章 简要 介绍 了 正则 表达 式 编译 的 一 
RDIR, 但 是 更 复杂 的 Perl 相 关 问 题 ， 包括 regex MAZE, 都 在 “正则 
表达 式 编 译 、/o 修饰 符 、gr/.../ 和 效率 ”( 喇 348) 中 详细 讨论 。 


Matchiz & 47 


The Match Operator 

基本 的 匹配 操作 : 

$text=~m/regex/ 

是 Perl 的 正则 表达 式 应 用 的 核心 。 在 Perl 中 ， 正 则 表达 式 匹 配 操作 

匹配 如 何 进行 ， 返 回 什 么 信 ， 取 雇 于 匹配 的 应 用 场合 《〈 权 294) 及 
HIEN. match 运算 符 非 第 方便 一 一 它 可 以 用 来 测试 条 个 正则 表达 式 
能 合 匹 配 一 个 字符 串 ， 或 者 从 字符 串 中 提取 数据 ， 甚 至 古 与 其 他 匹配 运 
算 符 一 起 将 字符 串 拆 分 为 各 个 部 分 。 虽 然 功能 强大 ， 这 种 便捷 也 增加 了 
BRIERE. mi BEN AA te: 

e 如 何 指定 正则 运算 元 。 

ee 如何 指 定 匹 配 修饰 符 ， 以 及 它们 的 意义 。 

e 如 何 指定 目标 字符 串 。 


e 几 配 的 伴随 效应 。 

o JU AC HJIR EÉ o 
ofe 2 Me DLAC AY Wh ai AZK o 
DUACHY Fs DUB ce : 


StringOperand=~RegexOperand 
RAVES Tal EAT IN, (EAE Re, EREA T, Paso 
邦人 不 是 必须 出 现 的 。 本 市 中 我 们 会 看 到 各 种 形式 的 例子 。 


Match 的 正则 运算 元 


Match's Regex Operand 

正则 运算 元 可 以 是 正则 文字 或 者 regex 对 象 〈 其 实 可 以 是 字符 串 或 
者 任意 的 表达 式 ， 但 是 这 样 做 没什么 好 处 ) 。 如 琳 使 用 正则 文字 ， 可 以 
指定 修饰 从 。 

使 用 正则 文字 

正则 运算 元 通常 是 m/..,/ 或 者 就 是 /.../ 内 的 正则 文字 。 如 果 正 则 文字 
的 分 隔 符 是 疼 线 或 问号 《以 问号 做 分 隅 人 符 的 情况 很 特殊 ， 稍 后 讨论 ) 则 
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过 ， 如 果 使 用 m， 你 可 以 使 用 目 己 的 分 隔 符 C291) 。 

使 用 正则 文字 时 ， 可 以 结合 第 292 页 介绍 的 任何 核心 修饰 符 。 匹 配 
运算 符 还 文 持 两 个 另外 的 运算 符 ，/c 和 /g， 下 面 马 上 介绍 。 

使 用 regex 对 象 

正则 运算 元 也 可 以 是 qv.../ 生 成 的 regex 对 象 ， 例 如 : 

my $regex = gqr/regex/; 
if ($text =~ $regex) { 

可 以 在 m/.../ 中 使 用 regex 对 象 。 特 殊 的 情况 是 ， 如 果 “ 正 则 文字 ?中 
只 包含 一 个 regex 对 象 的 插值 ， 那 么 它 束 完全 等 同 于 使 用 此 regex 对 象 。 
上 面 这 个 例子 也 可 以 写作 : 

if ($text =~ m/Sregex/) { 

这 很 方便 ， 因 为 它 看 起 来 更 熟悉 ， 也 容许 我 们 对 regex 对 象 使 用 /g 修 
饰 符 〈《 还 可 以 使 用 m/.../ 文 择 的 其 他 的 修饰 待 ， 但 这 在 本 例 中 没有 意 
义 ， 因 为 它们 不 能 复 冲 regex 对 象 内 锁定 的 模式 修饰 符号 304) 。 

默认 的 正则 表达 式 

如 果 没 有 指定 正则 表达 式 ， 例 如 m//〈 或 者 m/$SomeVar/ 而 变量 
$SomeVar 为 空 字 符 串 或 未 定义 ) ， 则 Per 会 使 用 此 代码 所 在 的 动态 作用 
域 范围 内 最 近 应 用 成 功 的 正则 表达 趟 。 以 前 这 样 很 有 用 ， 因 为 可 以 提 
高 效率 ， 后 来 因为 regex 对 象 的 发 展 (303) ， 已 经 没什么 意义 了 。 

? ...? 的 特殊 匹配 

除了 之 前 介绍 的 正则 文字 的 各 种 分 隔 符 ，match 运 算 符 还 可 以 使 用 
一 种 特殊 的 分 隔 付 问 写 。 问 号 分 隅 从 (例如 m? ...? ) 提供 的 是 相 
HEREJE m? ...? 匹配 成 功 之 后 ， 除 非 在 同样 的 package 中 调用 
reset 隔 数 ， 人 个 则 不 会 再 次 匹配 。 按 照 Perl Version 1 的 手册 上 的 说 法 ， 
这 “是 有 用 的 优化 措施 ， 用 于 在 一 组 文件 中 查找 某 段 信息 的 第 一 次 出 
现 ”， 但 是 不 知 何故 ， 我 在 现代 Perl 中 从 未 见 过 。 

问号 分 隔 符 的 特殊 情况 类 似 斜 线 分 隅 符 ，m 也 不 是 必须 出 现 
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指定 目标 运算 元 


Specifying the Match Target Operand 
音 用 来 指定 “搜索 字符 串 ” 的 做 法 是 = 一 ， 例 如 $text= 一 m/.../。 请 记 


住 ， = 一 既 不 是 赋值 运算 符 ， 也 不 是 比较 运算 符 ， 只 是 一 个 看 来 有 趣 的 
运算 符 ， 用 来 连接 运算 元 〈 这 个 表示 法 改编 目 awk) 。 
因为 整个 “expr= 一 my/.../” 本 刁 了 怠 是 一 个 表达 式 ， 我 们 可 以 在 任何 容 
许 出 现 表 达 陈 的 地 方 使 用 ， 例 如 《以 连 线 分 隔 ) : 
$text =~ m/…/; # 这 样 做 ， 大 概 是 从 伴随 效应 考虑 的 


if ($text =~ m/…/) 1 
# 如果 匹配 成 功 ， 执 行 这 些 代码 


$result = ( $text =~ m/*/ ); # 把 Sresult 置 为 $text 的 匹配 结果 
$result = $text =~ m/…/ ; # 同上 =~ 的 优先 级 高 于 = 

Scopy = $text; # 把 Stext #MZlScopy... 

$copy =~ m/::/; # ... 在 Scopy 上 匹配 

( $copy = $text ) =~ m/::/; # 同上 
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$text=~m/regex/; 

的 总 ge 》 Bea Sl] $text 中 的 文本 》 A, HS UR E 值 》 SRE FE BE 
A”. WRES BSS, ARME: 

$text=m/regex/; 

它 的 意思 是 “对 $_ 中 的 文本 应 用 正则 表达 式 ， 获 取 伴 随 效 应 ， 把 返 
回 的 true/false 值 赋 给 $text”。 也 就 是 说 ， 下 面 两 者 是 等 价 的 : 


Stext m/regex/; 
Stext ($ =~ m/regex/) ; 


有 时 候 使 用 默认 目标 字符 串 很 方便 ， 尤 其 是 与 其 他 默认 情况 的 结构 
(许多 结构 都 有 默认 值 〉 结合 时 。 下 面 的 代码 就 很 常见 ; 


} elseat (m/s) { 
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颠倒 match 的 意义 
可 以 用 ! 一 来 取代 = 一 ， 对 返回 值 进行 馆 辑 非 操 作 “〈 马 上 会 介绍 这 
么 做 的 返回 值 和 伴随 效应 ， 但 是 对 于 ! ~, iB EE truek é 
false) ， 下 面 三 种 办 法 是 等 价 的 : 


if (Stext !~ m/:::/) 
if (not $text =~ m/:::/) 
unless (Stext =~ m/:::/) 


从 我 个 人 出 友 ， 我 蝇 欢 中 间 的 办 法 。 无 论 选 用 哪 种 办 法 ， 部 会 产生 
设置 $1 等 的 伴随 效应 。! 一 只 是 判断 “如 朱 不 能 匹配 ?的 简便 方 陈 。 
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Different Uses of the Match Operator 

可 以 从 match 运 算 符 返 回 的 true/false 判 断 匹 配 是 否 成 功 ， 也 可 以 从 成 
功 死 配 中 获取 其 他 的 信息 ， 与 其 他 match 运 算 符 结合 起 来 。match 运 算 符 
的 行为 主要 取决 于 它 的 应 用 场合 (5294) ， 以 及 是 否 使 用 了 /g 修 饰 





FF 
普通 的 “匹配 与 合 ” scalar context， 不 使 用 /g 
在 scalar context 中 (例如 if 测 试 ) ，match 运 算 符 返回 的 就 是 
true/false: 
if ($target =~ m/:/) 1 
# ... 匹配 成 功 后 的 操作 ... 
} else { 
# ... 匹配 失败 后 的 操作 ... 


} 
也 可 以 把 结束 赋值 给 一 个 scalar 变 量 ， 然 后 检查 


my Ssuccess = Starget =~ m/:::/; 


if (Ssuccess) i 


普通 的 “从 字符 串 中 提取 数据 ?” list context， 不 使 用 /g 

不 使 用 /g 的 list context， 是 字符 串 中 提取 数据 的 彰 用 做 和 法。 返回 值 是 
一 个 list， 每 个 元 系 是 正则 表达 式 中 捕获 型 插 写 内 的 表达 式 捕 获 的 内 
容 。 下 面 这 个 简单 的 例子 用 来 从 69/8/31 中 提取 日 期 : 

my ($year, $month, $day) =$date=~m{/ (\d+) / (\d+) / 

(\d+) $}x; 匹配 的 3 个 数 作为 3 个 变量 (当然 还 包括 $1、$2 和 $3 等 
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(this) | (that) /必然 有 一 组 括号 不 会 参与 匹配 。 这 样 的 括号 返回 未 定 
义 的 值 undef。 如 条 匹配 成 功 ， 又 没有 使 用 捕获 型 括号 ， 在 不 使 用 /g 的 
list context 中 ， 会 返回 list (1) 。 

i List context 可 以 以 各 种 方式 指定 ， 包 括 把 结果 赋值 给 一 个 数组 ， 例 
H: 

my@parts=$text=~m/^(\d+)-\d+)-\d+)$/; 

如 末 match 的 接收 参数 是 scalar 变 量 ， 请 将 匹配 的 应 用 场合 指定 为 list 
context， 这 样 才能 获得 匹 配 的 茶 些 捕获 内 容 ， 而 不 是 表示 匹配 成 功 与 合 
的 Boolean 值 。 比 较 这 两 个 测试 : 

my (Sword) = $text =~ m/(\wt)/; 
my $success = $text =~ m/ (\w+)/; 





第 一 个 例子 中 ， 变 量 外 的 括号 导致 my 图 数 为 赋值 指定 list context. 
第 二 个 例子 没有 括号 ， 所 以 应 用 场合 为 scalar ”context，$success 只 得 到 
true/false 值 。 
下 面 给 出 了 一 个 更 徐 单 的 做 法 : 
if (my ($year, $month, $day) = $date =~ m{* (\d+) / (\d+) / (\d+) S}x) { 
# 如果 能 够 匹配 ，S$year 等 变量 已 经 赋值 
} else { 
# ”如 果 不 能 匹配 ... 
} 


这 次 匹配 友 生 在 list context 中 (由 “my C...) =) ， 所 以 序列 


中 的 变量 会 根据 对 应 的 $1、$2 之 类 进行 赋值 。 不 过 ， 风 配 完 成 之 后 ， 
为 整个 组 合 是 在 if 条 件 语 句 的 scalar context 中 ，Perl 把 list 转 换 为 一 个 
scalar 变 量 。 它 接收 的 是 ]list 的 长 有 度 ， 如 末 匹 配 不 成 功 ， 长 度 为 0， 如 果 不 
为 0， 则 表示 匹配 成 功 。 

“提取 所 有 匹配 ”一 list context， 使 用 /g 

此 结构 的 用 处 在 于 ， 它 返回 一 个 文本 序列 ， 每 个 元 系 对 应 捕获 型 括 
写 逻 配 的 文本 (如 果 没 有 捕获 型 括号 ， 束 返回 整个 表达 式 匹 配 的 文 
本 ) ， 但 上 一 节 的 例子 只 能 针对 一 次 匹配 ， 而 这 种 结构 针对 所 有 匹配 。 

下 面 这 个 简单 的 例子 用 来 所 取 字 符 串 中 的 所 有 整数 : 

myCnums=$text=~mAd+/g; 

如 果 $text 包 含 IP 地 址 564.156.215.240:，@num 会 接收 4 个 元 
素 ，“‘64?、‘156*、‘215”、‘240’。 与 其 他 结构 相 结 合 ， 束 能 很 方便 地 把 
IP 地 址 转换 为 8 位 16 进 制 数 字 ， 例 如 “409cd7f0'， 如 末 需 要 创建 紧 凌 的 

my $hex_ip=join",map {sprintf( " %02x " ,$_)} Sip=~m/d+/g; 

下 面 的 代码 可 以 把 它 转换 回来 : 

my $ip=join'.',map {hex($_)} $hex_ip=~m/../g 

男 一 个 例子 是 匹配 一 行 中 的 所 有 汉 扣 数 : 

my@nums=$text=~m/\d+(?:\.\d+)?|\.\d+/g; 

一 定 要 使 用 非 捕 获 型 括号 ， 因 为 捕获 型 括号 会 改变 返回 的 结 采 。 下 
面 的 例子 说 明了 捕获 型 括 志 的 价 信 : 

my@Tags=$Html=~m/< (\w+)/g; 

@Tags 会 保存 $Html 中 依次 出 现 的 各 个 tag， 这 里 假设 每 一 个 “二 "都 
有 对 应 的 “> 0 

下 面 的 例子 使 用 了 多 个 捕获 型 括号 : 把 Unix 中 邮箱 联系 人 的 alias 文 
件 的 内 容 存 放 在 一 个 字符 捉 中 ， 数 据 格式 古 : 





alias Jeff jfriedl@regex.info 
alias Perlbug perl5-porters@perl.org 
alias Prez president@whitehouse.gov 


为 了 提取 每 一 行 中 的 昵称 Calias) 和 完整 地 址 ， 我 们 可 以 使 用 
m/^aliasis+ S+) \s+ (.+) /m (不 使 用 /g) 。 在 list _ context 中 ， 返 回 的 
序列 包括 两 个 元 素 ， 例 如 〈Je 任 ，'jfriedl@regex.info') 。 现 在 用 /g 匹 配 
所 有 这 样 的 组 合 ， 得 到 的 序列 是 : 

( 'Jeff', 'jfriedl@regex.info', 'Perlbug', 
'perl5-porters@perl.org', 'Prez', 'president@whitehouse.gov' ) 


如 末 这 个 序列 恰好 符合 key/value 的 形式 ， 我 们 可 以 直接 把 它 存 入 一 
个 关联 数组 (associative array) 。 
my%alias=$text=~m/ 人 alias\s+(\S+)\s+(.+)/meg; 


返回 之 后 ， 可 以 用 $alias{Jeff} 访 问 'Jeff 的 完整 地 址 。 
RILE: Scalar Context， 使 用 /g 


Iterative Matching:Scalar Context,with/g 


scalar context 中 ，nmy.../g 是 个 特殊 的 结构 。 和 下 第 的 m/.../ 一 样 ， 它 
只 进行 一 次 逻 配 ， 但 是 和 list ”context 中 的 my.../g 一 样 ， 它 会 检查 之 前 内 
配 的 发 生 位 置 。 每 次 在 scalar context 中 使 用 my.../g 一 一 例如 在 循环 中 ， 
它 会 寻找 “下 一 个 ” 岂 配 。 如 果 失 败 ， 束 会 午 置 “当前 位 置 (current 
position) ”， 于 是 下 一 次 应 用 从 字符 串 的 开头 开始 。 
这 里 有 个 简单 的 例子 : 
Stext = "WOW! This is a SILLY test."; 
Stext =~ m/\b([a -z]+\b)/g; 
print "The first all-lowercase word: $1\n"; 
$text =~ m/\b([A-Z]+\b) /g; 
print "The subsequent all-uppercase word: $1\n"; 


有 两 次 匹配 是 在 scalar context 中 使 用 /g 进 行 的 ， 结 果 为 : 
The first all-lowercase word: is 
The subsequent all-uppercase word: SILLY 
Jn PAYRDLACAC A HER, WAE SWE” KA LKS FB 
词 之 后 ， 第 二 个 谈 取 这 个 位 置 ， 在 后 面 寻找 大 写字 母 单词 。 对 两 个 匹配 
来 说 ，/g 都 是 必须 的 ， 这 样 匹 配 才 能 注意 到 “当前 位 置 ?， 所 以 如 采 任 何 
一 个 没有 使 用 /g， 第 二 行 会 指 问 “WOW”。 
scalar context 中 的 /8 匹配 非常 适合 用 作 while 循 环 的 条 件 : 
while ($ConfigData =~ m/^(\w+)=(.*)/mg) { 
my(Skey, Svalue) = ($1, $2); 





最 终 会 找到 所 有 的 匹配 ， 但 是 while 的 循环 体 是 在 匹配 之 间 (或 者 
说 ， 在 每 次 匹配 之 后 ) 执行 。 一 旦 某 次 匹配 失败 ， 结 果 就 是 false， 然 后 
while 循 环 结束 。 同 样 ， 一 旦 失败 ，/g 状 态 会 重 置 ， 也 就 是 循环 结束 之 后 
的 /g 瑟 配 会 从 字符 串 的 开头 开始 。 

比较 : 


while ($text =~ m/(\d+)/) { # 很 危险 ! 
print "EGUMA: Sl wi": 
} 
和 
while ($text =~ m/(\d+)/g) { 
peant "founds 61m": 
} 
唯一 的 区 别 是 /g， 但 是 这 区 别人 不 可 小 视 。 如 果 $text 包 含 之 前 那个 IP 
地 址 ， 第 二 个 程序 输出 我 们 期 望 的 结 采 : 


found: 64 
found: 156 
tound: 215 
found: 240 
相反 ， 第 一 个 程序 不 斯 地 打 Eh“found: 64”， 不 会 终止 。 不 使 用 /g， 
就 意味 着 “找到 $text 中 第 一 个 "Cd+) ”， 也 就 是 "64:， 无 论 匹 配 多 少 次 


都 是 如 此 。 添 加 /g 之 后 ， 它 变 成 了 “找到 gtext 中 的 下 个 ， (\d+) ”, 4K 
次 找到 各 个 数字 。 

“ 当 表 匹配 位 置 >? 和 pos () 函数 

Perl 中 每 个 字符 串 都 有 对 应 的 “当前 匹配 位 置 gel match 
position) ”， 传 动 痛 置 会 从 这 里 开始 第 一 次 匹配 的 答 试 。 这 是 字符 串 的 
属性 之 一 ， 而 与 正则 表达 式 无 关 。 Meee leak Pe «Ay VL 
配 位 置 ?会 指 回 字符 串 的 开头 ， 但 是 如 果 /g 匹 配 成 功 ， 它 吏 会 指 同 本 次 
匹配 的 结束 位 置 。 下 一 次 对 字符 串 应 用 /g 匹 配 时 ， 匹 配 会 从 同样 的 “ 当 
前 匹配 人 位置? 开始。 可 以 通过 pos C...) 函数 得 到 目标 字符 串 的 “当前 匹 
HMA”, Aah: 
my Sip = "64.156.215.240"; 
while (Sip =~ m/(\d+)/g) i 


printti “found ‘51° ending at location 二 ON pos (Sip) ; 
} 


结果 十: 


found '64' ending at location 2 

found '156' ending at location 6 
found '215" ending at location 10 
found '240' ending at location 14 


( 记 住 ， 字 从 串 的 下 标 是 从 0 开始 的 ， 所 以 qocation 2” 束 是 第 3 个 字 
符 之 前 的 位 置 ) 。 在 /8 匹配 成 功 之 后 ，$+[0]〈@+ 的 第 一 个 元 系 呈 302 ) 


wise TE pp FF BB AN pos. 
pos () 函数 的 默认 参数 是 match 运 算 符 的 默认 参数 : 变量 $_。 
预 设 定 字 符 串 的 pos 
pos () 的 真正 能 力 在 于 ， 我 们 可 以 通过 它 来 指定 正则 引擎 从 什么 
位 置 开 始 匹配 《当然 是 针对 /的 下 一 次 匹配 ) 。 我 在 Yahoo! 的 时 候 ， 
要 处 理 的 Web 服 务 器 log 文 件 的 格式 是 ， 包 含 32 字 节 的 定 长 数据 ， 然 后 是 
请 求 的 页 面 ， 然 后 是 其 他 信息 。 提 取 请 求 页 面 的 办 法 是 人 .{32} ， 跳 过 
开头 的 定 长 效 据 : 
if (Slogline =~ m/%*.{32}(\S+)/) { 
SRequestedPage = $1; 
} 
这 种 便 办 法 不 够 美观 ， 而 且 要 强迫 正则 引擎 处 理 前 32 个 字 季 。 如 果 
我 们 杀 目 动手 ， 代 人 码 会 好 看 得 多 ， 效 京 也 局 得 多 : 
pos ($logline) = 32; # 请 求 页 的 信息 从 第 33 个 字符 开始 ... 
if (Slogline =~ m/(\S+)/g) { 
SRequestedPage = $1; 
} 
这 个 程序 好 些 ， 但 还 不 够 好 。 这 个 正则 表达 式 从 我 们 规定 的 位 置 开 
台 ， 而 在 此 之 前 不 需要 匹配 ， 这 一 点 与 上 个 程序 不 同 。 如 果 因 为 未 些 原 
因 ， 第 32 个 字符 不 能 由 \S 匹配 ， 前 面 那个 程序 就 会 匹配 失败 ， 但 是 新 
程序 因为 没有 锁定 到 字符 串 的 特殊 位 置 ， 会 由 传动 闻 置 后 动 豫 动 过 程 。 
也 就 是 说 ， 它 会 错误 地 返回 一 个 \S+ 在 字符 串 后 面部 分 的 匹配 。 幸 好 ， 
在 下 一 节 我 们 会 看 到 ， 这 个 问题 很 容易 修复 。 
使 用 \G 
元 字符 \G 的 意思 是 “ 锚 定 到 上 一 次 匹配 结束 位 置 *。 这 正 是 上 一 节 中 
我 们 希望 解决 的 问题 。 
pos(Slogline) = 32; # KR SAZA 从 第 32 个 字符 开始 , 所 以 从 此 处 开始 匹配 . . ， 
if (Slogline =~ m/\G(\S+) /g) 


{ 
SRequestedPage = $1; 


\G 告 诉 传动 装置 , “不 要 局 动 驱动 过 程 ， 如 采 在 此 处 匹配 不 能 成 
功 ， 束 报告 失败 ”。 

前 面 几 半 曾 经 介绍 过 \G : 第 3 草 有 人 徐 单 介绍 〈 到 130) ， 更 复杂 的 
PIPES SE C212) 。 

请 注意 ， 在 Perl 中 ， 只 有 人 \G 出 现在 正则 表达 式 开 涉 ， 而 且 没 有 全 


} 


局 性 多 选 结构 的 情况 下 ， 结 末 才 是 可 预 负 的。 第 6 章 的 优化 CSV 解析 
程序 的 例子 中 ( 喇 271)〉 ， 正 则 表达 式 以 NG (? : 外， ) ... 开头。 如 
果 更 严格 的 人 HEM DLAC, BODE NG ， 所 以 你 可 能 会 把 它 改 为 
“(3? : ANG，) . 。 不 科 的 是 ， 在 Perl 中 这 样 行 不 通 ; 其 结果 不 可 预测 
( 注 7) à- 
使 用 /gc 进行 “Tag-team>” 匹 配 
正 间 情况 下 ，my/.../g 瑟 配 失 败 会 把 目标 字符 串 的 pos 重 置 到 字符 串 
的 开头 ， 但 给 /g 添 加 /c 之 后 会 造成 一 种 特殊 的 效果 : 匹配 失败 不 会 重 置 
目标 字符 串 的 pos (Vc 离 不 开 /g， 所 以 我 一 般 使 用 /gc) 。 
m/.../gc 最 向 见 的 用 法 是 与 \G itd, Bez a”, FB 
为 各 个 记号 Coken) 。 下 例 人 徐 要 说 明了 如 何 解析 $html 中 的 HTML 
while (not $html =~ m/\G\z/gc) # 在 全 部 检查 完 之 前 . .. 
{ 


Lf (Shtml =~ m/\G( <[*>]+> )/xgc) { print "TAG: $1\n" } 
elsif ($html =~ m/\G( &\wt; )/xgc) { print "NAMED ENTITY: $1\n" } 
elsif ($html =~ m/\G( &\#\d+; )/xgc) { print "NUMERIC ENTITY: $1\n"} 
elsif ($html =~ m/\G( [*<>&\n]+)/xgc) { print "TEXT: $1\n" } 
elsif (Shtml =~ m/\G \n /xgc) { print "NEWLINE\n" } 
elsif ($html =~ m/\G( . )/xgc) { print "ILLEGAL CHAR: $1\n" } 
else { 


die "S0: oops, this shouldn't happen!"; 
| 

每 个 正则 表达 式 的 粗 体 部 分 匹配 一 种 类 型 的 HTML 结 构 。 从 当前 位 

置 开 始 ， 依 次 检查 每 一 个 正则 表达 式 〈 使 用 /gc〉 ， 但 是 只 能 在 当前 位 
EILE AKEH G) 。 按 照 顺序 依次 检查 各 个 正则 表达 却 ， 
十 到 找到 能 够 匹配 的 结构 为 止 ， 然 后 报告 。 之 后 把 $html 的 pos 指 问 下 

一 个 记号 的 开始 ， 进 入 下 一 轮 循 环 的 搜索 。 

循环 终止 的 条 件 是 mAG\z/gc 能 够 匹配 ， 即 当前 位 置 (NG ) falls 
符 串 的 未 尾 CZ). 

有 一 点 要 注意 ， 每 轮 循环 必须 有 一 个 匹配 。 否 则 而 且 我 们 不 希望 
退出 ) 融会 进入 无 男人 循 坏 ， 因 为 $html 的 pos 既 不 会 变化 也 不 会 重 置 。 对 
现在 的 程序 来 说， 最终 的 else 分 文 水 远 不 会 调用 ， 但 是 如 果 我 们 希望 修 
改 这 个 程序 〈 马 上 就 会 这 么 做 ) ， 或 许 会 引入 错误 ， 所 以 else 分 支 是 有 
必要 你 留 的 。 对 目前 这 个 程序 来 襄 ， 如 来 接收 预料 之 外 的 数据 例 
W< >?) ， 会 在 每 次 过 到 预料 之 外 的 字符 时 ， 束 友 出 一 条 营 报 。 


为 一 皮 需 要 注意 有 的 是 各 表达 式 有 的 检查 顺序 ， 例 如 把 NG.) ,作为 最 
后 的 检 碍 。 也 可 以 来 看 下 和 面 这 个 识别 二 script 二 代码 的 例子 : 

$html=~mAG (<script[^>] * >.* 2?</script>)/xgcsi 

IE, XES 5 个 修饰 符 ! 为 了 正 稼 运行， 我 们 必须 把 它 放 在 对 
字符 串 进 行 第 一 次 [<A>] > 的 匹配 之 前 。 人 否则 KNS ,会 匹配 
开头 的 二 script 二 标签 ， 这 个 表达 式 束 没 法 运行 了 。 

第 3 重 还 介绍 了 天 于 /gc 的 更 高 级 的 例子 〈 宇 132) 。 

Pos 相 天 问题 总 结 

下 面 定 match 运 算 符 与 目标 字符 种 的 pos 之 间 互 相 作 用 的 总 结 : 


CRAE | 尝试 开始 位 置 。 | 匹配 成 功 时 的 pop 值 | 区 配 失 败 时 的 pop 设 定 
m/++/ 字符 串 起 始 位 置 (忽略 pos) | 重 置 为 undef 重 置 为 undef 
m/…/g | 字符 囊 的 pos 位 置 。 | 匹配 结束 位 置 的 偏 移 值 | 重 置 为 undef 
m/…/gc 。 | 字符 事 的 pos 位 置 |ERBRE RMA [RE 

同样 ， 只 要 修改 了 字符 捉 ，pos 吏 会 重 置 为 undef (也 就 是 初始 值 ， 
指 回 字符 串 的 起 始 位 置 ) 。 


Matchiz 517 GALI KA 


The Match Operator's Environmental Relations 

下 面 几 节 将 总 结 我 们 已 经 见 到 的 ，match 运 算 符 与 Perl 环 境 之 间 的 互 
相 影 啊 。 

match 运 算 人 符 的 伴随 效应 

通 利 ， 成 功 匹 配 的 伴随 效应 比 返 回信 更 重要 。 事 实 上 ， 在 void 
context 中 使 用 match 运 算 符 〈 这 样 甚 至 不 必 检 查 返 回 值 ) ， 只 是 为 了 获 
取 伴 随 效应 〈 这 种 情况 类 似 scalar context) 。 下 面 总 结 了 成 功 匹 配 的 伴 
BEUM: 

LEZ ERKASI KEE, ENAR N HAARE H 
(3299) 。 

e 设 置 默 认 正 则 表达 式 ， 供 当前 语法 块 内 其 他 代码 使 用 (二 308) 。 

e 如 采 m? ...? 能 够 匹配 ， 它 《也 束 是 nm? ...? 运算 符 ) 会 被 标记 为 
无 法 继续 匹配 ， 至 少 在 同样 的 package 中 ， 不 调用 reset 就 无 法 继续 匹配 
C308) 。 

当然 ， 这 些 伴 随 效 应 只 能 在 匹配 成 功 时 及 生 ， 不 成 功 的 匹配 不 会 影 









啊 它 们 。 相 反 ， 下 面 的 伴随 效应 在 任何 匹配 中 都 会 发 生 : 

e 日 标 字 符 串 的 pos 会 指定 或 者 重 置 0313) 。 

e 如 果 使 用 了 /o， 正 则 表达 式 会 与 这 个 运算 从 “ 融 为 一 体 Cfuse) ”, 
不 会 重新 求全 Cevaluate, 352) 。 

match 运 算 符 的 外 部 影 啊 

match 运 算 符 的 行为 会 受到 运算 元 和 修饰 符 的 影响 。 下 面 总 结 了 影 
啊 match 运 算 符 的 外 部 因 和 对: 

应 用 场合 context 

match 运 算 符 的 应 用 场合 〈scalar、1list， 或 者 void) 对 匹配 的 进行 、 
返回 信和 伴随 效应 有 重要 影 啊 。 

pos(...) 

目标 字符 串 的 pos《〈 由 前 一 次 匹配 显 式 或 隐 式 设 定 ) 表示 下 一 次 /g 史 
配 应 该 开始 的 位 置 ， 同 时 也 是 \G 匹配 的 位 置 。 


BRU AIA TY 
On AR He PEAY IE ASIA TUN, MEHAANIK (308) 。 
study 


对 匹配 的 内 容 或 返回 值 没 有 任何 影响 ， 但 如 果 对 目标 字符 串 调 用 此 
图 数 ， 匹 配 所 花 的 时 间 更 少 〈 也 可 能 更 多 ) o Bese “StudyRA’ C= 
359) 。 

m? ...? 和 reset 

m? ...? 运算 从 有 一 个 看 不 见 的 “已 /未 罗 配 ”状态 ， 在 使 用 m? ...? 
Vo Was reset HE (308) 。 

在 context 中 思考 (420 id context ) 

在 match 运 算 人 符 讲 解 结束 之 前 ， 我 要 提 几 个 问题 。 尤 其 是 ， 在 
while、 让 和 foreach 控 制 结构 中 发 生变 化 时 ， 确 实 需要 保持 头脑 清醒 。 请 
间 ， 运 行 下 面 的 程序 会 得 到 什么 结果 ? 


while ("Larry Curly Moe" =~ m/\wt/g) { 
print "WHILE stooge is $é&.\n"; 
} 


| yan"; 


if ("Larry Curly Moe" =~ m/\wt/g) 1 
print "IF stooge is $é&.\n"; 
} 


prime. "ya"; 


foreach ("Larry Curly Moe" =~ m/\wt/g) 
print "FOREACH stooge is $&.\n"; 


} 
XA RIL, 请 翻 到 下 页 但 看 党 条 。 


Substitutioniz 74+ 


The Substitution Operator 

PerlfJsubstitutioniz FfF s/.../... AME REE LEL, Ree SPRUE ACY 
文字 。 通 常 的 形式 是 : 

$text=~s/regex/replacement/modifiers 

MERK, regex 匹配 的 文本 会 蔡 换 为 replacement 的 值 。 如 宁 使 用 
了 /g， 这 个 正则 表达 式 会 重复 应 用 到 文本 中 进行 匹配 ， 每 次 匹配 的 内 容 
HD SE BL TF FR 

与 match #RYF FE, WR A eA ees 中， 目标 运算 元 和 = 
一 都 不 是 必须 的 。match 运 算 从 可 以 省 略 m， 而 substitution 个 能 和 省略 s。 

我 们 已 经 看 到 ，match 运 算 符 是 非 第 复杂 有 的 一 一 它 的 工作 原理 ， 它 
的 返回 值 ， 都 取决 于 它 所 在 的 应 用 场合 ， 目 标 字 符 串 的 pos， 以 及 使 用 
的 修饰 符 。 相 反 ，substitution 运 算 符 很 简单 : 它 返 回 的 信息 是 不 变 的 

《表示 蔡 换 的 识 数 ) ， 影 响 它 的 修饰 符 也 很 好 理解 。 

你 可 以 使 用 第 292 页 介绍 的 所 有 核心 修饰 符 ， 但 是 substituion 运 算 符 

还 文 持 男 外 两 个 修饰 符 ，/g， 以 及 马上 将 要 介绍 的 /e。 





运算 元 replacement 


The Replacement Operand 


”在 普通 $/.../.../ 中 ，replacement 沦 跟 在 regex 之 后 ; mV.../ 使 用 两 个 分 
IT 而 这 里 要 使 用 3 个 。 如 琳 正 则 表达 式 使 用 对 称 的 分 阳 符 (例如 
<...>) ， 则 replacement 有 自己 的 一 对 分 隔 符 (这 样 总 共 束 有 4 个 分 隔 
符 ) 。 举 例 来 说 ，s{.…}{.….} 和 s[...]/..…./ 和 s 过 .….>'..,' 都 是 合法 的 。 这 种 
情况 下 ， 两 对 分 阳 从 可 以 用 空 日 子 从 分 阳 ， 如 坟 使 用 了 空 日 子 从 ， 人 还 可 
以 添加 注释 。 对 称 的 分 隔 符 通 第 在 MX 或 /e 中 使 用 。 

Stext =~ sf 
.. .复杂 的 表达 式 ， 大 量 的 注释 ， 以 及 . . . 

} { 

. .对 一 段 Perl 代码 求 值 ， 把 结果 作为 replacement... 
}ex; 
请 注意 区 分 regex 和 replacement。regex 会 按照 正则 表达 式 的 方式 来 

fT, AA CHa bat C5291) 。replacement 则 会 当 作 普通 的 双 引 扎 


字符 串 来 解 机 和 求 值 “evaluate) 。 求 值 会 在 匹配 之 后 进行 《如 果 使 用 
每 次 匹配 之 后 都 会 求 什 ) ， 所 以 $1 之 类 的 变量 能 够 指 癌 对 应 的 匹 
LAR. 

在 下 面 两 种 情况 下 ，replacement 不 会 按照 双 引 号 字符 串 来 解析 : 

ereplacement 的 分 隔 符 是 单 引 号 ， 此 时 作为 单 引 亏 字 符 串 ， 不 会 进 
行 变量 搬 值 。 

e 使 用 了 /e 修 饰 从 (下 一 节 讨 论 ) ，replacement 会 作为 一 小 段 Perl 代 
但 而 不 是 双 引 号 字符 串 。 这 一 人 小段 Perl 代 码 会 在 每 次 匹配 之 后 执行 ， 结 
RIE Areplacement. 


/e 修 饰 付 


The/e Modifier 

/e 修 饰 符 会 把 replacement 作 为 一 段 Perl 代 码 来 进行 求 值 ， 这 就 类 似 
eval{...}。 人 代码 痛 载 时 ， 首 移 会 检查 这 段 代码 的 语法 ， 确 保 没 有 错误 ， 
但 是 每 次 匹配 之 后 都 会 对 代码 重新 求 值 。 每 次 匹配 之 后 ，replacement 都 
会 在 scalar context HENKIE. m RIEN replacements PAA HH 
例子 : 

$text=~s/-time-/localtime/ge; 

在 scalar context 中 ， 它 会 用 Perl 的 localtime 函 数 的 结果 (也 束 是 返回 
表示 当前 时 间 的 文本 ， 例 如 “Mon Sep 25 18: 36: 51 2006”) 替换 -- 
time-, o 

因为 求 值 是 每 次 匹配 之 后 进行 的 ， 我 们 可 以 通过 $1 等 变量 引用 匹配 
的 内 容 。 例 如 ，URL 中 不 容许 出 现 的 特殊 字符 ， 可 以 编码 为 百 分 
写 “%” 加 两 位 十 六 进 制 数 的 形式 。 为 了 编码 所 有 这 种 字符 ， 可 以 这 样 : 


测验 舍 案 


5318 页 测验 的 答案 


318 页 代码 的 结果 : 
WHILE stooge 1s Larry. 
WHILE stooge is Curly. 
WHILE stooge is Moe. 


IF stooge is Larry. 


FOREACH stooge is Moe. 
FOREACH stooge 1s Moe. 
FOREACH stooge is Moe. 


请 注意 ， 如 果 foreach 循环 中 的 print 引用 了 $ 而 不 是 S&， 结 果 就 会 与 while 的 一 
样 。 在 这 个 foreach 中 ，m/…/g 返回 的 ('Larry'，'Curly'，'Moe') 并 没有 使 用 ， 
相反 合 是 使 用 了 伴随 效应 中 的 $8， 这 表示 程序 有 销 误 ， 因 为 list context 的 伴随 效应 ， 
m/…/9 并 不 第 用 。 





$url=~s/([Aa-zA-Z0-9])/sprintf('%%%02x',ord($1))/ge; 

下 面 的 程序 可 以 用 来 解码 : 

$url=~s/%([0-9a-f][0-9a-f])/pack( " C " ,hex($1))/ige; 

简单 地 说 ，sprintf ('%%%02x', ord (character) ) 把 字符 转换 为 对 
应 的 URL 编码 ， 而 pack ("C" ，value〉 的 作用 相反 ， 请 参考 你 常用 
的 Perl 文 档 获 取 更 多 信息 。 

BARNS FA /e 

通 第 情况 下 ， 对 单个 运算 人 符 多 次 使 用 同一 修饰 符 没 有 特殊 意义 《只 
有 让 读者 更 困惑 ) ， 但 是 重复 /e 修 饰 符 却 会 改变 replacement 的 答 换 过 
程 。 正 篆 情 况 下 ，replacement 会 进行 一 次 求 值 ， 但 是 如 果 “e' 的 数目 多 于 
1 个 ， 则 Perl 又 会 对 求 值 的 结果 进行 求 什 ， 如 此 一 直 进 行 下 去 ， 求 值 的 次 
的 数目 一 样 多 。 或 许 它 的 主要 价值 是 用 作 比 较 Perl 代 码 复杂 性 的 
MIIA o 

不 过 此 功能 并 非 完 全 无 用 。 如 采 需 要 手动 进行 变量 插值 〈 例 如 从 配 
置 文件 谈 入 字符 串 ) 。 也 就 是 说 ， 有 一 个 字符 串 “...$var...”， 我 们 锅 望 
JE ‘Svar 4 #4 WN Svar ty 1H - 


人 简单 的 办 法 是 : 

$data=~s/(\$[a-zA-Z_]\w * )/$1/eeg; 

WR /MEAA/e, VWs BAUR Svar 上 自身 ， 这 没什么 用 。 使 用 一 
个 /e， 会 对 $1 重 新 求 值 ， 得 到 '$var ， 这 样 也 没什么 意义 ， 同 样 是 用 匹配 
HY SOAS FR A (AE MEAP Te, J ‘Svar’ se EIKE, TBA 
容 ， 这 样 束 模拟 了 变量 插值 。 


应 用 场合 与 返回 但 


Context and Return Value 

根据 context 和 /g 的 不 同 组 合 ，match 运 算 符 会 返回 不 同 的 值 。 不 
$, substitutions AIA XA R FE TIR EMEA E B REAR 
数 ， 要 么 是 空 字符 串 ， 表 示 没 有 发 生 任何 蔡 换 。 

为 使 用 方便 ， 返 回 值 为 Boolean 时 《例如 在 if 条 件 语句 中 ) ， 只 要 发 
ETR, BEH true, falses K RRRA E 





Splits AIT 

The Split Operator 

功能 多 样 的 split 运 算 符 《在 不 那么 严格 的 时 候 ， 人 们 通 背 称 其 为 图 
数 ) 常 被 视 为 list context 中 my/.../g (311) 的 对 立 物 。 后 者 返回 表达 式 
匹配 的 文本 ， 而 split 返 回 由 表达 式 匹 配 的 文本 分 隔 的 文本 。 把 $text= 一 
m/: /g 应 用 到 'TO.SYS: 225558: 95-10-03: -a-sh: optional'+, 返回 四 
NTC Hlist: 

Cece) 

这 似乎 没什么 用 ， 但 是 split (/: /, $text) 返回 5 个 元 素 的 list: 

(IO.SYS','225558','95-10-03','-a-sh','optional'’) 

两 个 例子 部 告诉 我 们 ，': ,匹配 了 4 次 。 使 用 split， 这 4 次 匹配 把 目 
标 字 人 符 串 的 副本 分 隅 为 5 段 ， 返 回 包含 5 个 字符 串 的 list。 

这 个 例子 只 用 蛙 个 字符 分 隐 目 标 字 从 串 ， 其 实 我 们 可 以 使 用 任何 正 
则 表达 式 : 

@Paragraphs=split(m/\s * <p >\s * /i,$html); 

ESTER <p> ae <P> (AMARA SAS) 把 $html 中 的 
HTML 代 码 分 隔 开 来 。 你 甚至 可 以 按 位 置 分 隔 : 

@Lines=split(m/^/m,$lines); 

把 字符 串 按 行 切 分 。 

对 最 简单 形式 的 数据 来 说 ，split 非 常 有 用 也 很 容易 理解 。 不 过 ， 
为 存在 许多 参数 、 特 殊 情 况 和 特殊 情形 ， 事 情 会 变 得 复 洒 。 在 深入 这 些 
细 广 之 前 ， 先 给 出 两 个 特别 有 用 的 例子 : 

ee 特殊 的 match 运算 符 /， 会 把 目标 字符 串 切 分 为 单个 字符 ， 也 残 是 
ti, split (//, "short test" ) 得 到 10 个 元 素 的 list: C"s", "h", " 
人 


e 特 殊 的 match WBA": " 《包含 单个 空格 的 普通 字符 串 ) 把 目标 
字符 串 投 照 衬 日 字符 切 分 ， 等 于 使 用 mAs+/， 只 是 会 忽略 开头 和 结尾 的 
宇 白 字符。 这 样 ，Ssplit ">", "-+-ashort:--test'-:" ) ”得 到 三 个 字符 


FA: ‘a’, ‘short’ All ‘test’. 


稍 后 讨论 各 种 特殊 情况 ， 我 们 先 来 看 基础 的 部 分 。 
Split 基 础 知识 


Basic Split 
splite RATA RRA, CHUTE A, 
split(match operand,target string,chunk-limit operand) 


括号 是 可 选 的， 未 提供 的 运算 元 会 设置 为 默认 值 〈 本 节 稍 后 讨 


AN 
w) 
split 总 是 在 list context 中 人 使用， 第 用 的 模式 包括 : 
(Svarl, SvarZ, Syeans, <=) = BpLAEL-«) 5 
@array = split(:::) 
for my Sitem (split(:::)) { 
} 
match 运 算 元 


运算 元 match 有 有 几 种 特殊 情况 ， 不 过 它 通 和 党 等 价 于 match 操 作 中 的 
regex 运 算 元 。 世 束 是 说 ， 你 可 以 使 用 /.../ 和 mt{...} 之 类 有 的 形式 ， 它 可 以 
是 regex 对 象 ， 或 者 任何 能 够 求 值 为 字符 串 的 表达 式 。 它 只 文 持 第 292 页 
介绍 的 核心 修饰 符 。 

如 果 继 续 要 用 括号 来 分 组 ， 请 务必 使 用 非 捕 获 型 括号 (? : 

...)  。 我 们 稍 后 将 会 看 到 ， 在 split 中 使 用 捕获 型 括号 会 触发 极 特殊 的 功 
HE o 
target string 运 算 元 


target string HFW, ANSKE. WRA RE, EH 


chunk-limit 运 算 元 

chunk-limit 运算 元 的 主要 功能 是 设 定 split 切 分 字符 串 的 数目 上 限 。 
对 上 面 的 例子 中 同样 的 目标 字符 串 调用 split (/: /，$text，3) 得 到 : 

(IO.SYS''225558','95-10-03:-a-sh:optional') 

这 告诉 我 们 ，/: /匹配 两 次 之 后 split 会 终止 ， 产 生 所 需 的 3 段 。 它 可 
能 可 以 匹配 更 多 的 识 数 ， 但 这 里 不 需要 ， 因 为 存在 段 的 数目 限制 。 议 定 
的 数目 将 作为 上 限 ， 所 以 最 多 只 能 返回 规定 数目 的 元 素 〈 除 非 正 则 表达 
式 包含 捕获 型 括号 ， 后 文 会 论 及 ) 。 得 到 的 元 素数 目 可 能 少 于 上 限 ， 如 
条 得 到 的 分 段 少 于 规定 的 数目 ， 也 不 会 有 多 余 的 内 容 来 “ 填 序 ”。 对 于 示 


例 所 用 的 数据 ，sP1it(/:/，$text，89) 返 回 的 list 只 有 5 个 元 素 。 不 
过 ，split (/: /, $text) 和 5SPlit (/:/,$text,，99) 有 重要 的 区 别 ， 这 


里 暂时 还 看 不 出 来 一 一 请 记 住 这 一 点 ， 稍 后 我 们 会 仔细 讲解 。 

a. ae ee eee 
的 数目 本 映 。 人 否则 ， 前 面 那个 上 限 为 3 的 例子 束 应 该 得 到 这 

(IO.SYS','225558','95-10-03','-a-sh: optional’) 

这 不 是 程序 运行 的 结 

这 里 谈 谈 效率 : 假设 只 希望 取 开 头 的 几 个 元 素 ， 例如 : 

($filename, $size,$date)=split(/:/, $text); 
为 了 提高 效率 ， 在 需要 的 元 素 赋 值 之 后 ，Perl 会 停止 splithefe. © 
会 目 动 把 chunk-limit 设 置 为 list 的 元 素 个 数 +1。 

RA split 

从 我 们 接触 过 的 例子 来 看 ，split 很 容易 使 用 
增加 了 它 实 践 起 来 的 复杂 程度 : 

e 返 回 空 元 率 。 

te rel 

含 捕获 型 插 写 的 regex。 





， 但 有 三 个 特殊 的 问题 


1B [Bl AS UR 


Returning Empty Elements 


split 的 基本 功能 是 返回 由 各 个 匹配 分 隔 的 分 本 ， 但 有 的 时 候 ， 返 回 
WSCA cE 28 AFB CIR EE AOI ATT, Po" ") ， 比 如 : 
78") 


Cnums = splat(m/s/, “l2334s3, 
‘JK |E]: 
( 12" ," 34", 11 "," 78" ) 
正则 表达 式 ': 匹配 了 3 次 ， 所 以 应 当 返 回 4 个 元 素 。 第 3 个 元 系 为 

空 ， 表 示 正 则 表达 式 在 一 行 中 匹配 了 两 次 ， 它 们 之 间 没 有 文本 。 
clears TUR 
TIRA T, AANT 元素 不 会 返 回 ， 例 如 : 
Q@nums = split(m/:/, "12:34:27 Bapa)? 
同样 会 返回 4 个 元 素 : 


( 12 " " 34 " " ie 78 ") 


即使 这 个 正则 表达 式 在 字符 串 的 末尾 能 匹配 更 多 的 次 数 ， 结 果 也 没 
有 变化 。 在 默认 情况 下 ，split 不 会 返回 list 未 尾 的 空 元 素 。 不 过 ， 我 们 可 


以 通过 设 定 chunk-limit 运 算 元 ， 让 split 返 回 所 有 的 末尾 元 素 。 

chunk-limit 运 算 元 的 次 要 职能 

chunk-limit 的 主要 用 途 是 设 定 分 段 数 目的 上 限 ， 任 何不 等 于 0 的 
chunk-limit 都 会 保留 末尾 的 空 元 素 〈chunk-limit 设 置 为 零 等 价 于 不 设置 
chunk-limit) 。 如 有 果 你 不 希望 限制 返回 的 chunk 的 数目 ， 但 是 希望 你 留 末 
尾 的 空 元 系 ， 只 需要 设置 一 个 非常 大 的 限制 即 可 。 或 者 更 好 的 办 法 是 ， 
设置 为 -1， 因 为 chunk-limit 为 负数 表示 一 个 足够 大 的 上 限 : split O: /, 
$text，-1) 会 返回 所 有 的 元 系 ， 包 括 末 尾 的 空 元 系 。 
用 grep{length}。 使 用 grep 之 后 ， 只 会 返回 长 度 不 为 0 的 元 系 〈 也 就 是 
Vo 

my@NonEmpty=grep {length} split(/:/, $text); 

字符 串 末 尾 的 特殊 匹配 

在 字符 串 开 头 的 匹配 会 产生 一 个 空 元 素 : 


@nums = split(m/:/, ":12:34::78") 


@num 的 值 为 : 

Cr ，12 ，34 ， ，78 +) 

开始 的 空 元 素 表 明 ， 正 则 表达 式 在 字符 串 的 开头 能 够 匹配 。 不 过 也 
有 例外 ， 如 果 一 个 正则 表达 式 没 有 匹配 任何 文本 ， 如 果 它 在 字符 串 的 开 
头 或 者 结尾 匹配 ， 那 么 开头 和 /或 结尾 的 空 元 系 将 不 会 生成 。 来 看 个 简 
单 的 例子 : split (Ab/，" a simple test") ， 它 能 够 匹配 其 中 的 6 个 位 置 


n - lee 7 ae 、 、 
cp ess 即使 它 能 匹配 6 次 ， 也 不 会 返回 7 个 元 素 ， 而 是 
OIL: ( 1 3 1 , "on , 1 simple " moo 1 test 1 ) i 其 实 ， 这 
种 特殊 情况 我 们 已 经 见 过 ， 即 第 321 页 的 @Lines=split (m///m, 
$lines) 。 


Split 中 的 特殊 Regex 运 算 元 


Split's Special Regex Operands 

split 的 match 运 算 元 通 和 束 是 正则 文字 或 者 regex 对 象 ， 这 与 match 运 
算 符 的 情况 一 样 ， 不 过 也 有 例外 : 

eregex 为 空 的 意思 不 是“ 使 用 当 击 的 献 认 正 则 表达 式 *”， 而 是 把 目标 
字符 串 分 割 为 字符 。 在 刚 开 始 讨 论 spit ”的 时 候 我 们 见 过 这 个 例子 ， 
split (//, "short test") 返回 ”10 个 元 又 的 list: C"s", "h", "o 
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人 


e 如 果 match 运 算 元 古 由 单个 空格 构成 的 字符 串 〈( 而 不 是 正则 表达 
式 ) ， 则 是 男 一 种 特殊 情况 。 它 基本 等 同 与 s+t/， 只 是 会 忽略 开头 的 空 
日 字符 。 这 主要 是 为 了 模拟 awk 对 输入 进行 的 默认 的 输入 -记录 -分 隔 
(input-record-separator) 操作 ， 尽 管 对 普通 情况 来 说 它 也 很 有 用 。 

如 采 布 望 傈 留 开头 的 空 日 字符 ， 可 以 直接 使 用 mAs+/。 如 采 布 望 体 
留 来 尾 的 衬 日 字符 ， 只 需要 把 chunk-limit 讽 置 为 -1。 

e 如 条 没有 议 置 regex 运 算 元 ， 则 默认 使 用 一 个 空格 符 〈 上 面 提 到 的 
Ad 
0) o 

e 如 果 regex 为 ^ ， 会 自动 使 用 修饰 符 /m 增 强 型 行 锚 点 匹配 模 
W) o (HASERA, $ 则 不 行 )。 因 为 明确 使 用 m/Nm 非 党 容易 ， 
我 推荐 这 种 更 清晰 的 写法 。m/Nm 是 把 包含 多 行文 本 的 字符 串 按 行 切 分 
的 简便 方法 。 

Split 不 产生 伴随 效应 

请 注意 ，split 的 match 运 算 元 看 起 来 很 像 普 通 的 match 运 算 符 ， 但 是 
它 没 有 任何 伴随 效应 。split 中 的 正则 表达 陈 不 会 影响 到 之 后 的 match 或 是 
substitution 操 作 所 用 的 默认 正则 表达 式 ， 也 不 会 设置 $&、”、9$1 之 类 
的 变量 。split 在 伴随 效应 上 完全 独立 于 程序 的 其 他 部 分 ( 注 8) 。 


Split 中 市 捕获 型 括 与 的 match 运 算 元 


Split's Match Operand with Capturing Parentheses 
捕获 型 括号 会 从 整体 上 改变 split。 一 旦 使 用 了 捕获 型 括号 ， 返 回 的 
list PS HECHT IN CR, ERY TIS SHR oR. Hite it, 
split 没有 返回 的 部 分 或 全 部 的 文本 ， 会 包含 在 返回 的 list 中 。 
例如 ， 在 处 理 HTML 时 ， 对 下 面 的 文本 调用 split (/ (<[A>]* 
>) /) : 
..cand: <B>very:<FONT:color=red> very </FONT > -much</B> 
‘effort... 
1K |E]: 
LB Very’; "<FONT*Color=reo>’,; 
Pery": '/FONTS*, “mich, "</BS"',; “BErOrC.sesn!? J 
如 果 去 掉 捕 获 型 括号 ，split /<[A>]* >) 返回 : 
(‘....and:','very:','very’,'-much','-effort...') 


多 出 来 的 元 系 不 受 分 段 上 限 的 限制 Cchunk-limit Ril ROR AT AB Y 


分 之 后 的 分 段 数目 ， 而 不 十 返 回 元 系 的 数目 )。 
如 条 包含 多 个 捕获 型 括号 ， 每 次 匹配 之 后 ，jist 会 多 出 多 个 元 系 。 
如 栗 东 个 捕获 型 括号 没有 参与 匹配 ， 对 应 的 元 系 为 undef。 


巧 用 Perl 的 专 有 特性 


Fun with Perl Enhancements 

最 先 由 Perl 提供 的 许多 正则 表达 式 概 仿 ， 现 在 其 他 语言 也 提供 了 。 
包括 非 捕获 型 括号 、 环 视 〈 以 及 之 后 的 刻 序 环视 ) 、 和 宽松 排列 模式 (其 
实 是 大 多 数 模 式 ， 实 际 上 还 包括 配套 的 \A 、 fz ANZ) 、 固 化 分 
ZA. AG 和 条 件 判 断 结构 。 这 些 概念 不 再 是 Perl 独 有 的 ， 所 以 我 把 它们 
挪 到 本 书 的 通用 部 分 。 

不 过 Perl 者 也 没有 停止 创新 ， 所 以 现在 还 有 些 重 要 的 概念 只 有 Perl 
提供 。 其 中 最 有 意思 的 是 在 匹配 壬 试 中 执行 任意 代码 的 功能 。 长 期 起 
来 ，Perl 的 特点 之 一 束 是 正则 表达 式 与 代码 的 案 密 集成 ， 但 古 此 特性 把 
集成 提升 到 了 新 的 高 度 。 

m 我 们 先 来 简单 看 看 这 个 特性 和 目前 Penl 独 有 的 其 他 特性 ， 然 后 详细 
DEE o 

BAS EMI ZI | C? ? {perl code}) | 

应 用 正则 表达 式 时 ， 每 次 遇 到 表达 式 中 的 这 个 结构 ， 驳 会 执行 其 中 
的 Perl 代 码 。 执 行 的 结果 (或 者 是 regex 对 象 ， 或 者 是 解释 为 正则 表达 
式 的 字符 串 ) 会 作为 当前 匹配 的 一 部 分 即刻 被 应 用 。 


(dr)N3??fTX1s1i)5 中 的 动态 正则 结构 以 下 画 线 标注 ， 这 个 
正则 表达 式 匹 配 的 行 开 头 是 一 个 数 ， 然 后 是 字符 和 皂 : 必 须 重 现 对 应 的 次 
AX, ELBIT HR 

它 能 匹配 ‘3XXX’ 和 ‘12XXXXXXXXXXXX’， 但 不 能 
配 ‘3X’ 或 ‘7XXXX’。 

"SEKE 


仔细 看 “3XXX' 束 会 发 现 ， 开 头 的 "Cd+) 匹配 局 '"， 把 $1 设 
为 ‘3’”。 之 后 正则 引 苟 过 到 动态 正则 结构 ， 执 行 “X{$1}”， 得 到 ‘X{3}’， 
解释 得 到 的 'X{3} 作为 当前 正 


则 表达 式 的 一 部 分 (匹配 S), KENS 匹配 :3XXX ，， 得 到 
整体 匹配 。 
下 面 我 们 会 看 到 ， 匹 配 任意 深度 的 嵌 套 结构 时 ， 动 态 正则 结构 尤其 
用 





RE SZ | (? {arbitrary perl code}) | 
与 动态 正则 结构 一 样 ， 在 正则 表达 式 的 应 用 过 程 中 ， 台 到 此 结构 也 


会 执行 其 中 的 Perl 代 码 ， 但 是 这 个 结构 更 为 通用 ， 因 为 代码 不 需要 返回 
任何 特定 的 值 。 通 党 也 不 会 用 到 返回 值 〈( 不 过 如 果 表 达 式 之 后 的 部 分 需 
要 ， 可 以 通过 变量 $ 和 AR 得 到 二 302) 。 

有 一 种 情况 会 用 到 这 段 代 码 的 执行 结果 : 如 果 内 骸 的 代码 结构 用 作 
?让 ”thenlelse〉 PHIRI C5140) 。 此 时 ， 结 果 会 解释 为 布尔 
值 ， 根 据 它 来 决定 执行 then 还 是 else 分 文 。 

内 般 代 码 可 以 干 许多 事情 ， 相 当 有 用 的 驶 是 调试 。 下 面 这 段 程序 会 
在 每 次 应 用 正则 表达 式 时 显示 一 条 信息 ， 内 骸 的 代码 结构 用 下 男 线 标 
注 : 

"hava a nice day" =~ m{ 
(?{ print "Starting match. \n"}) 
\b(?: the | an | a )\b 

} x; 

WIAA, IEW AeA A IUEL, BEREZKA, WHET 
ete HOKE WAZA OATES PLEA SIEM AAS, AeA] see 
PLAC 

正则 文字 重 载 

正则 文学 重 载 能 够 让 程序 员 先 目 行 处 理 正则 文学 ， 再 将 它们 交 给 正 
则 引擎 。 它 可 以 用 来 为 Perl 的 正则 流派 扩展 新 的 功能 。 例 如 ，Perl 没 有 
提供 单独 的 日 词 起 始 和 结束 分 隅 从 (只 有 "\b ) ， 不 过 你 可 能 希望 使 用 
\< 和 \>， 让 Per 能够 识别 这 些 结构 。 

正则 重 载 有 些 重要 的 限制 ， 严 格 制约 了 它 的 用 途 。 在 讲解 \ 过 与 \> 
的 例子 时 我 们 会 看 到 这 一 点 。 

如 果 正 则 表达 陈 中 内 肉 了 Per 代码 〈 无 论 是 动态 正则 结构 还 是 内 蔡 
代码 结构 〉， 最 好 是 只 使 用 全 局 变量 ， 除 非 你 明白 关于 338 页 讲解 的 my 
Se. KRF my 人 释 量 的 讨论 ， 请 参阅 第 338 页 。 


用 动态 正则 表达 式 结 构 匹 配 租 僚 结 构 


Using a Dynamic Regex to Match Nested Pairs 

动态 正则 表达 却 的 主要 用 途 之 一 是 匹配 任意 深度 的 能 和 套 结 构 《〈 长 久 
以 来 人 们 认为 正则 表达 陈 对 此 无 能 为 力 ) 。 匹 配 任意 深度 的 伦 套 括号 古 
个 重要 的 例子 。 为 了 说明 日 动态 正则 如 何 解决 这 个 问题 ， 我 们 痛 完 必须 
知道 传统 结构 为 什么 不 能 解决 这 个 问题 。 

DUBS SCAN i ATEN CAO ]) 4D 。 在 外 层 插 号 
内 不 容许 出 现 括号， 所 以 不 能 容许 散人 套 【〈 也 束 是 ， 只 容许 深度 为 0 的 骸 


E) 。 用 regex 对 象 来 表示 了 驶 是 : 


my SLevel0 = gr/ \( [人 # 括号 内 文本 


if ($text =~ m/\b( \wtSLevel0 )/x) 1 
peint “fourd function call: Sl vn™y 


} 

这 能 够 匹配 “substr ($str, 0, 3) ”， 但 不 能 配 “substr ($str, 0, 
(3+2) ) ”， 因 为 它 包 含 租 和 父 的 括号 。 现 在 修改 正则 表达 式 来 处 理 它 ， 
{HOD Ae fit Ze Ae eS DFR EA LAKE 

容许 深度 为 1 WREKE. JMS BSAC aS. Pi 
以 ， 我 们 需要 修改 匹配 外 层 括 号 内 文本 的 表达 去 人 (0) ] ， 添 加 一 个 子 
表达 式 匹 配 内 层 括号 里 的 文本 。 我 们 可 以 这 样 ， $Level0 保 存 这 个 
EWAN, PARHEZ: 


my $Level0 = qr/ \( ( [^()] e y As # 括号 内 文本 
my $Levell = qr/ \( ( [^()]| $Level0 )* \) /x; # LERS 


这 里 的 $Level0 与 之 前 的 相同 ， 新 出 现 了 $Level1， 死 配对 应 深度 的 
括 握 ， 加 上 $Level0， 束 得 到 深度 为 1 的 艇 套 。 

为 了 增加 髋 和 懈 的 深度 ， 我 们 可 以 用 同样 的 方法 ， 通 过 $Level1《〈 仍 
然 使 用 $Level0) 得 到 $Level2: 


my SLevel0 = gr/ \( ( [%*()] )* \) /x; # 括号 内 文本 

my SLevell = gr/ \( ( [*()] | $Level0 )* \) /x; # lLERE 

my SLevel2 = gr; \( ( [*()] | SLevell )* \) /x; # 2ERE 
继续 下 去 就 是 ; 

my $Level3 = qr/ \( ( [*()] ¢ SLevel2 )* \) /x; # 3 ERE 

my S$Level4 = qr/ \( ( [*()] ; $Level3 )* \) /x; # LRS 

my SLevel5 = qr/ \( ( [*()] 7 SLevel4 )* \) /x; # SERRE 


图 7-1 说 明了 开始 几 层 的 情况 : 


\(([ () | Ma )* \ ) 


me d ( [AQ] |. mmn: v 


第 0 层 





图 7-1: EBRD ARE 

把 这 些 层 级 加 起 来 的 结 末 很 复杂 ， 下 面 是 $Level13: 

\(PHOIM(MOIN(AOINM( AOD) =W * \)) KY * \) 

这 相当 难看 。 

对 运 的 是 ， 我 们 不 需要 直接 解释 它 〈 那 是 正则 引擎 的 工作 ) 。 使 用 
$Level 变 量 (RAED SEHE, AAA, WENA re HA SLevel 22 i Hy H 
RE. AINED TG CH SSSERE BRU ze, OR REAP ae MRR 
FEAXA ERE, WTB A ATE AY RETR ED FE FEX+1) 。 

aE, DAEN WV ERREN RE. VR veers 
除 第 一 个 之 外 ， 每 个 $Level 变 量 的 构建 方式 都 是 相同 的 : 需要 增加 一 级 
舱 父 深度 时 ， 只 需要 包含 上 一 级 的 $Level 变 量 即 可 。 但 如 果 $Level 变 量 
都 是 相同 的 ， 它 束 同 样 能 包含 更 深 级 别 的 $Level。 事 实 上 ， 它 还 可 以 包 
括 目 身 。 如 果 在 匹配 更 深层 的 众 辟 时 它 可 以 用 某 种 方式 包含 目 身 ， 残 能 
Ves VEL Ach EE BABES KES « 

MAE TAS TEN A BRAT ATE. WORE TE BE 
如 $Level 变 量 ， 就 可 以 在 动态 正则 中 引用 叱 (动态 正则 CAT ap 
mH Perl 代码 ， 只 要 绪 末 能 极 解 释 为 正则 表达 云 ， 返 回 已 存在 的 regex 
ot RN Perlis SAGA 求 ) 。 如 果 我 们 能 把 $Level 之 类 的 regex 对 象 
放 入 $LevelN， 束 可 以 用 '(? ? {$LevelN}) 来 引用 它 : 


my SLevelN; # 必须 首先 声明 ， 下 面 才 能 使 用 
SLevelN = qr/ \(( [^()] | (??{ $LevelN }) )* \) /x; 





它 束 能 逻 配 任意 深度 的 舱 套 括 写 ， 用 法 同 之 前 的 $Level0: 
if (Stext =~ m/\b( \wtSLevelN )/x) ë 
Prine TESINE LnctIen Galli Sin": 


} 
哈 ! 想 明 日 其 中 的 道理 可 不 是 件 容易 的 事情 ， 不 过 一 旦 用 过 ， 束 会 
发 现 这 个 工具 的 价值 。 
现在 我 们 已 经 有 了 基本 的 办 法 ， 我 希望 做 些 修改 提高 效率 。 我 会 答 
换 捕获 型 括号 为 固化 分 组 〈 这 里 既 不 需要 捕获 文本 ， 也 不 需要 回溯 ) ， 
之 后 可 以 把 IAA OO], BATA O H REEK PREEN HPX 
样 做 ， 人 否则 会 造成 无 体 止 匹配 从 226) 。 
Ba, Re BE CM) 移动 到 动态 正则 表达 式 两 六。 这 样 ， 在 
ce 
$LevelN=qr/(? > [AQ]+|\((??{SLevelN })\)) * /x; 
因为 它 不 包含 外 部 的 \(...\) ， 调 用 $LevelN 时 必须 手动 添加 。 
这 样 一 来 ， 表 达 式 束 十 分 灵活 ， 可 以 在 任何 可 能 出 现 艇 僚 括 号 的 地 
方 使 用 ， 而 不 仅仅 是 出 现 了 藤 套 括号 的 地 方 : 
if (Stext =~ m/\b( WE \( SLevelN \) )/x) { 
pint “Found function Gall’ Sin"; 


if (not $text =~ m/* SLevelN S$/x) { 
print "mismatched parentheses! \n"; 


第 343 页 还 有 一 个 关于 $LevelN 的 例子 。 


AE H PS fee US ENA 


Using the Embedded-Code Construct 

A RC AS Vad IE MU EAT, DAR AR A IE FEET INDE ACY 
信息 。 下 面 几 页 详细 给 出 了 一 组 例子 ， 最 终 得 到 模拟 POSIX 匹 配 的 方 
法 。 讲 解 的 过 程 可 能 比 真 正 的 谷 采 更 有 意思 《除非 你 只 雷 要 POSIX 的 罗 
配 语意 ) ， 因 为 在 讲解 中 我 们 会 收获 有 用 的 技巧 和 局 友 。 

先 从 简 里 的 正则 表达 式 调试 拉 巧 开始 。 

H A BR TCS te AN VE ACE T fis 

这 上 段 程序 : 


"abcdefgh" =~ m{ 
(?{ print "Starting match at [S'S] vyo" }) 
(?:dle|f£) 
bX; 
的 结束 征 : 
Starting match at [|abcdefgh 
starting match at [a|bcdefgh 
Starting match at [ab|cdefgh 
Starting match at [abc|defgh 


ENKARA FPA BE A RRS GY, PAR BE EURIA 

—ke Duc, wast: 
print "starting match at [FF Tui" 

它 用 变量 和” C300) CED) 表示 目标 字符 串 ， 用 人 中 标记 当前 
的 匹配 位 置 〈 在 这 里 束 是 匹配 开始 的 位 置 ) 。 从 结果 中 我 们 可 以 知道 ， 
传动 装置 (5148) 进行 了 4 次 应 用 ， 才 匹配 成 功 。 

事实 上 ， 如 果 我 们 还 加 : 

(?{ print "matched at [$‘<S&>S’]\n" }) 

在 正则 表达 式 末 尾 ， 则 结果 是 : 

matched at [abc<d>efgh] 

现在 来 看 下 面 的 程序 ， 除 了 * 主 ?正则 表达 式 是 '[def] MAZE! C : 
djelf) 之 外 ， 其 他 部 分 与 开头 的 例子 是 一 样 的 : 


] 
| 
] 
| 


"abcdefgh" =~ m{ 
(of print “starting match at IF IF] Yon" }) 
[def ] 

bX; 


从 理论 上 说 ， 结 束 应 该 是 一 样 的 ， 实 际 情 况 却 是 : 

Starting match at [abc|defgh| 

为 什么 呢 ? Perl 足够 聪明 ， 对 这 个 以 [def] 开头 的 正则 表达 式 进行 
开头 字符 /字符 组 / 字 串 识别 优化 (二 247) ， 这 样 传动 装置 就 能 略 过 那些 
它 认为 必然 会 失败 的 答 试 。 结 来 是 忽略 了 其 他 所 有 壬 试 ， 只 进行 了 可 能 
导致 匹配 的 答 试 ， 我 们 可 以 通过 内 瞬 代 码 结构 观察 到 这 种 现象 。 


panic: top env 


使 用 内 嵌 代 码 或 是 动态 正则 表达 式 时 ， 如 果 程 序 忽 然 终止 ， 给 出 这 样 的 信息 : 
panic: top env 

很 可 能 是 因为 正则 表达 式 的 代码 部 分 存在 语法 错误 。Perl 不 能 识别 某 些 错误 的 语法 ， 

结果 就 是 这 条 信息 。 解 决 的 办 法 就 是 修正 语法 销 误 。 





用 内 巷 代码 显示 所 有 匹配 
Perl 使 用 的 是 传统 型 NFA 引 擎 ， 所 以 一 旦 找到 匹配 融会 停 下 来 ， 即 
BAAR TE BAN VOC te Oe. MRIS ARS, FAT 
Perl 显 示 所 有 的 匹配 。 我 们 仍然 以 177 页 的 ‘onself’ 为 例 来 说 明 。 
"oneselfsufficient" =~ mf{ 
one (self) ?(selfsufficient) ? 
(?{print "matched at [S$*<$&>$’]\n" }) 
bX; 


结果 如 我 们 所 料 : 


matched at [= oneself > sufficient] 


表示 oneselfsufficient , 记 经 被 正则 表达 式 匹 配 ， 

重要 的 是 认识 到 ， 结 果 中 的 “matched” 的 部 分 并 不 是 所 有 “能 够 匹 
配 ” 的 文本 ， 只 是 到 目前 获得 的 匹配 。 在 这 个 例子 中 谈论 其 中 的 区 别 意 
义 不 大 ， 因 为 内 髓 代 人 码 结 构 位 于 正则 表达 式 的 最 后 。 我 们 知道 ， 内 骨 代 
但 结构 完成 时 ， 人 整个 正则 表达 却 的 所 有 匹配 策 试 都 已 结束 ， 实 际 匹 配 的 
ZE eh re UO WE o 

不 过 ， 在 内 组 代 码 结构 之 后 添加 C2 LO 的 情况 如 何 呢 ? 
O ! ) 是 否定 型 顺序 环视 ， 它 必然 会 失败 。 如 果 它 在 内 骸 代 人 码 执行 
之 后 生效 《〈 也 残 是 在 “matched” 信 息 打 印 之 后 ) ， 职 会 强迫 引擎 回调， 
查找 新 的 匹配 。 每 次 输出 “matched” 信 息 之 后 ，'(? ! ) 都 会 强迫 引擎 
回 斋 ， 了 最 终 试 和 所 有 的 可 能 。 

matched at [<oneself>sufficient] 


matched at [<oneselfsufficient>] 
matched at [<one>selfsufficient] 


我 们 所 做 的 修改 确 你 正则 表达 式 必 然 不 能 完整 下 配 ， 但 是 这 样 做 却 
能 让 引擎 报告 显示 所 有 可 能 的 匹配 。 如 采 不 使 用 O ! ) ，Perl 内 会 





返回 第 一 个 匹配 ， 使 用 C ! ) 则 可 以 见 到 其 他 可 能 。 
了 解 了 这 一 点 之 后 ， 来 看 看 下 面 的 代码 : 
"123" =~ m{ 
\d+ 
(?{ print "matched at [S$‘<S$&>$’]\n" }) 
(2?!) 


matched at | 
matched at [ 
matched at [<1>23 
matched at | 
matched at | 
matched at [12<3> 
前 三 行 是 我 们 能 够 想象 的 ， 但 如 果 不 仔 细 动 动脑 筋 ， 可 能 没 法 理解 
后 三 行 。'(? ! ) 强 过 进行 的 回溯 对 应 第 二 行 和 第 三 行 。 在 开始 位 置 
的 妾 试 失 败 之 后 ， 传 动 北 置 会 局 动 驱 动 过 程 ， 从 第 二 个 字符 开始 (第 4 
章 对 此 有 详细 介绍 )》。 第 四 行 和 第 五 行 对 应 第 一 轮 尝试 ， 最 后 一 行 对 应 
第 三 轮 。 
所 以 ， 添 加 0? ! ) 之 后 确实 能 显示 出 所 有 可 能 的 匹配 ， 而 不 是 从 
某 个 特定 位 置 开 始 的 所 有 匹配。 不 过 ， 有 时候 只 需要 从 特定 位 置 开始 的 
所 有 匹配 ， 下 面 我 们 将 会 看 到 。 
寻找 了 最 长 匹配 
如 末 我 们 不 希望 找到 所 有 匹配 ， 而 是 希望 找到 并 保存 了 最 长 的 匹配 ， 
应 该 如 何 做 呢 ? 我 们 可 以 用 一 个 变量 来 你 存 “ 到 目前 为 止 ” 最 长 的 匹配 ， 
比较 每 一 个 “当前 匹配 ?和 它 。 下 面 是 “onself 的 例子 : 


Slongest match = undef; # 用 于 记录 最 长 的 匹配 


"oneselfsufficient" =~ mtf 
one (self) ?(selfsufficient) >? 
C74 
# 比较 当前 匹配 ($&) 与 之 前 记录 的 最 长 匹配 
if (not defined (Leonges match) 
Or 
length($&) > length(S$longest match) ) 
{ 
Slongest match = $&; 
} 
}) 
(2!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


|X; 


# 如 果 有 结果 ， 就 输出 
if (defined (slongest mMaten)) 4 

print "longest match=[S$longest match]\n"; 
} else { 

print "no Match \n"; 


} 
“a ANay PE, GIA Ze ‘longest match=[oneselfsufficient]’. iX—EXCA BRIX 


人 码 很 长 ， 不 过 将 来 我 们 可 能 会 使 用 ， 所 以 我 们 把 它 和 : ae 封装 起 
来 ， 作 为 单独 的 regex 对 象 : 


my SRecordPossibleMatch = qr{ 
(274 
# 比较 当前 匹配 (Sé) 与 之 前 记录 的 最 长 匹配 
if (not defined(Slongest match) 
or 
length($&) > length ($longest match) ) 
{ 
Slongest match = $&; 
} 
}) 
(2!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


Fæ 


下 面 这 个 简单 例子 会 找到 最 长 的 匹配 "9938”: 


Slongest match = undef; # 记录 最 长 的 匹配 
"800-998-9938" =~ m{ \d+ SRecordPossibleMatch }x; 


# 输出 到 目前 为 止 的 累积 结 
if (defined(Slongest match)) { 
print "longest match=[Slongest match] \n"; 
} else { 
Print "no maten\n”: 
} 
寻找 最 左 最 长 的 匹配 
我 们 已 经 能 找到 最 长 的 全 局 匹配 ， 现 在 需要 找到 出 现在 最 前 边 的 最 
长 匹配 。POSIX NEFA 丈 是 这 样 做 的 〈 棕 177) 。 所 以 ， 如 果 找 到 一 个 匹 
配 ， 台 要 茶 止 传动 痛 置 的 驱动 过 程 。 这 样 ， 一 旦 我 们 找到 某 个 匹配 ， 正 
第 的 回调 会 起 作用 ， 在 同一 位 置 寻 找 其 他 可 能 的 匹配 《同时 需要 体 存 节 
长 的 匹配 ) ， 但 是 茶 用 驱动 过 程 保 证 不 会 从 其 他 位 置 寻找 匹配 。 
Perl 不 容许 我 们 直接 操作 传动 汉 目 ， 所 以 我 们 不 能 和 直接 禁用 驱动 过 
程 ， 但 如 果 $longest_match 己 经 定义 ， 我 们 能 够 达到 实现 禁用 驱动 过 程 
的 效果 。 测 试 定义 的 代码 是 '(? {defined$longest_match}) ， 但 这 还 不 
人 够 ， 因 为 它 只 测试 变量 是 否定 义 。 重 要 的 是 根据 测试 结果 进行 判断 。 
TERE FU Tt HEH A BR AS 
为 了 让 正则 引 敬 根据 测试 结果 改变 行为 ， 我 们 把 测试 代码 作为 
' (? if thenlelse) 中 的 让 部 分 (140) 。 如 果 我 们 希望 测试 结果 为 真 
时 正则 表达 式 仿 下 来， 束 把 必然 失败 的 '(? l) 作为 then 部 分 。〔 这 
en D MARKAB) o Res SAF Flt regex xf 
my SBailIfAnyMatch = qr /(?(?{defined Slonget match}) (?!))/; 
if 部 分 以 下 男 线 标注 ，then 部 分 以 粗 体 标注 。 下 面 是 它 的 应 用 实 
例 ， 其 中 结合 了 前 一 页 定义 的 $RecordPossibleMatch: 
" 800-998-9938 " =~m{$BaillfAnyMatch\d+$RecordPossibleMatch}x; 


得 到 '800:， 它 符合 POSIX 标 准 一 “所 有 最 左 位 置 开 始 的 匹配 中 最 
长 的 匹配 ”。 


TE PY HR ANAS Aa td 15 local R 2 


Using localin an Embedded-Code Construct 


local 在 内 藤 代 码 结构 中 有 特殊 的 意义 。 理 解 它 需 要 充分 掌握 动态 作 
Fad C295) 的 概念 和 第 4 章 讲 解 表 达 式 主导 的 NFA 引 擎 工作 原理 时 所 
(BCA “TE LS Ea? Cer i58) 。 下 面 这 段 专门 设计 我们 会 看 到 ， 它 有 
缺陷 )， 的 程序 没有 太 多 复杂 的 东西 ， 但 有 助 于 理解 local 的 意义 。 它 检查 
一 行文 本 是 否 只 包含 \w+ 和 Ns+ ， 以 及 有 多 少 \w+ 是 \d+\b : 


my SCount = 0; 


text =~ m{ 
^ (?> \d+ (?{$Count++}) \b | \wt | \s+ )*$ 
bX; 

WRH ER LE Bl ae: FB 6123-abc-73-9271-xyz’, $Count 的 值 是 3. 
不 过 ， 如 果 匹 配 字符 串 '123.abc.73xyz:'， 结 果 就 是 2， 虽 然 应 该 是 1。 问 
题 在 于 ,，“73' 匹 配 之 后 ，$Count 的 人 会 发 生变 化 ， 因 为 后 面 的 \b 无 法 区 
配 ，Ad+ 当时 匹配 的 内 容 逢 要 通过 回 济 “交还 *"， 内 骸 结 构 的 代码 却 不 能 
恢复 到 “未 执行 ”的 状态 。 

如 果 你 还 不 完全 了 解 固化 分 组 '(? >...) C139) 和 上 面 发 生 
的 回溯 也 没 天 系 ， 回 化 分 组 用 于 避免 无 休止 岂 配 (二 269)〉 ， 但 不 会 影 
吧 结 构 内 部 的 回调 ， 只 会 影响 重新 进入 此 结构 的 回调 。 所 以 如 采 接 下 来 
的 \b 不 能 匹配 ， Ad+ 的 “区 还” 束 完 全 没有 问题 。 

人 简单 的 解决 办 法 是 ， 在 $Count 增加 之 前 添加 Sb > WHEE MERA 
在 不 进行 “交还 ?操作 的 情况 下 才 会 变化 。 不 过 我 更 愿意 在 这 里 使 用 
oe 来 说 明 应 用 正则 表达 陈 期 间 这 个 函数 对 Perl 代 码 的 影响 。 来 看 这 
入 程序 : 


our SCount = 0; 





Stext =~ m{ 
^ (?> \d+ (?{ local($Count) = $Count + 1 }) \b | \wt | \st )* $ 
}x; 
要 注意 的 第 一 点 是 ，$Count 从 my 变量 变 为 全 局 变量 (我 推荐 使 用 
use strict， 如 果 这 么 做 了 ， 就 必须 使 用 our 来 “声明 ”全 局 变量 ) 。 

夯 一 点 要 注意 的 是 ，$Count 的 修改 已 经 本 地 化 了 。 关 键 在 于 : XE 
则 表达 式 内 部 的 本 地 化 变量 来 说 ， 如 果 因 为 回 湖 需 要 “交还 ”ocal 的 代 
H, ERKA EJZ WE EMESA) 。 所 以 ， 即 使 
local ($Count) =$Count+1 在 \d+ 匹配 273?: 之 后 执行 ， 把 $Count 的 全 从 1 
改 为 2， 这 个 修改 也 只 会 是 调用 ]local 时 的 “本 地 化 到 (当前 正则 表达 式 
的 ) 成 功 路 径 ?”。 如 果 \b 匹配 失败 ， 正 则 引擎 会 回调 到 local 之 前 ， 


$Count 恢 复 到 1。 这 也 残 是 正则 表达 陈 结 束 时 的 值 。 


Atk Perl 代码 的 插值 


因为 安全 方面 的 考虑 ，Perl 不 容许 用 内 吝 代 码 结构 (?{…])1 或 动态 表达 式 结构 
(2314…})J 对 正则 表达 式 进行 字符 囊 插 值 (不 过 它们 可 以 进行 regex RI, AF 
第 334 页 的 SRecordpPossibleMatch)， 也 就 是 说 ， 

m{ (?{ print "starting\n" }) some regex" }x; 
是 可 以 的 ， 但 

my $ShowStart = '(?{ print "starting\n" })'; 


m{ $ShowStart some regex }x; 
不 行 。 之 所 以 要 施加 这 种 限制 ， 是 因为 把 用 户 的 输入 作为 正则 表达 式 的 一 部 分 是 长 期 
以 来 的 首 遍 做 法 ， 引 入 这 些 结 构 会 容许 用 户 运 行 任意 代码 ， 带 来 严重 的 安全 隐患。 所 
VL, 默认 情 况 下 不 容许 这 样 。 
如 果 你 喜欢 这 样 插 值 ， 可 以 使 用 下 面 的 声明 (declaration) : 

use re 'eval'; 


XAT TRA (设置 其 他 参数 ,编译 指示 (pragma) use re 也 可 以 用 于 调试 , 7361) 
整理 用 于 插值 的 输入 数据 


如 果 采 用 了 上 面 的 做 法 ,而且 确实 需要 使 用 用 户 输入 的 数据 插值 ， 请 确保 其 中 不 包含 
Ad Perl 代码 或 者 动态 正则 结构 。 我 们 可 以 用 正则 表达 式 \ (\s*\?+[p{] | RRB, te 
果 输 入 数据 能 够 匹配 ， 把 它 用 在 正则 表达 式 里 就 是 不 安全 的 。 使 用 \s*1 是 因为 /x 
修饰 符 容 许 开 括 号 之 后 出 现 空白 字符 (我 更 愿意 相信 它们 不 应 该 出 现在 那里 ， 不 过 事 
实 却 与 此 相反 ) 。 加 号 约束 的 、\?1 保 证 两 种 结构 都 可 以 识别 。 最 后 ,包含 p 是 为 了 匹配 
现在 已 经 废弃 的 (?p{…}) 1 结构 ， 也 就 是 老 版 本 的 (??{…)) 

我 想 最 好 的 办 法 是 由 Perl 提供 某 个 修饰 符 , 控 制 在 整个 正则 表达 式 或 某 个 子 表达 式 中 ， 
容许 还 是 禁止 使 用 内 谋 代 码 。 但 是 在 没有 实现 之 前 ， 我 们 必须 按照 上 面 介 绍 的 办 法 手 
LES, 


所 以 ， 为 了 你 证 $Count 的 记 数 不 发 生 错 误 ， 必 须 使 用 local。 如 果 把 
' (? {print " Final count is $Count.n" D 放 在 正则 表达 式 的 末尾 ， 它 
会 显示 正确 的 计数 值 。 因为 我 们 希望 在 匹配 完成 之 后 使 用 $Count， 就 必 
须 在 匹配 正式 结束 之 前 把 它 保 存 到 一 个 非 本 地 化 的 变量 中 。 因 为 匹配 完 
成 之 后 ， 所 有 在 匹配 过 程 中 本 地 化 的 变量 都 会 丢失 。 
下 面 是 一 个 例子 : 
my SCount = undef; 
our STmpCount = 0; 


Stext =~ m{ 
^ (?> \d+ (?{ local ($TmpCount) = S$TmpCount + 1 }) \b | \wt+ | \st+ )+ $ 
(?{ SCount = S$TmpCount }) # 最 后 将 SCount 存 入 非 本 地 变量 中 


|x; 
if (defined SCount) { 

print "Come is Somit: w 
} else { 

print "no match\n"; 


} 


看 起 来 这 么 做 有 点 儿 折 腾 ， 但 这 个 例子 的 目的 是 说 明正 则 表达 式 中 
a = pa i 我 们 会 在 第 344 页 的 “模拟 命名 捕获 ?中 见 到 实 
| 际 


天 于 内 骨 代 码 和 my 变量 的 忠告 


A Warning About Embedded Code and myVariables 

On my 3e FE IEW AAT bP, ABA FETE ASAT Z PAA 
PARES SFA, MASE A, Perl EERE AY HEAL Ee BY BB Sree 
BAM Sl. FEUER Sale A, BOOT, BRIE MAAS A 
BANA R 8 FS EY ih ce J A A IR Be, SET WA wR 
忠告: 这 一 市 难度 不 小 。 

下 面 的 例子 说 明了 问题 : 


sub CheckOptimizer 
| 
my $text = shift; # 第 一 个 参数 是 要 检索 的 文本 
my $start = undef; # URAZA kE M Mz 
my $match = $text =~ m{ 
(?{ $start = $-[0] if not defined $start})  # 保存 第 一 次 应 用 的 位 置 
\d # 这 是 需要 测试 的 正则 表达 式 
Jz; 
if (not defined $start) { 
print "The whole match was optimized away.\n"; 
if (Smatch) { 
# 这 种 情况 不 可 能 发 生 | 
print "Whoa, but it matched! How can this happen!?\n"; 
| 
} elsif ($start == 0) { 
print "The match start was not optimized. \n"; 
} else { 
print "The optimizer started the match at character $start. \n" 
} 
} 


程序 中 包含 3 个 my 变量 ， 但 是 只 有 $start 与 此 问题 有 关 《 因 为 其 他 两 
个 并 没有 在 内 骸 代 人 码 中 引用 〉。 程 厅 前 先 把 $start ” 设 为 未 定义 的 但， 然 
后 应 用 开头 元 素 为 内 骸 代 码 的 匹配 ， 只 是 在 $start 未 设 定 时 ， 内 髓 代码 
结构 才 会 把 $start 设 置 到 壬 试 开 始 位 置 。“ 本 次 尝试 的 起 始 位 置 ” 取 上 自 $-[0] 
(@- 的 第 1 个 元 系 寺 302) 。 
所 以 ， 如 果 调 用 : 
CheckOptimizer( test 123 " ); 
z5 RL HE 
The optimizer started the match at character 5. 
这 没有 问题 ， 但 如 条 我 们 再 运行 一 次 ， 结 末了 吏 成 了 : 
The whole match was optimized away. 
Whoa, but it matched! How can this happen!? 


即使 正则 表达 式 检 枉 的 文本 没有 变化 (而 且 正 则 表达 式 本 号 也 没有 
变化 ) ， 结 果 却 不 一 样 了 ， 你 友 现 问 题 了 吗 ? 问题 就 在 于 ， 在 第 二 次 调 
用 中 编译 正则 表达 式 时 ， 内 骸 代 人 码 中 的 $start 取 的 是 第 一 侈 运行 之 后 设 
置 的 值 。 些 函数 的 其 他 部 分 使 用 的 $start 其 实 是 一 个 新 的 变量 一 一 每 次 
图 数 调 用 的 开始 ， 执 行 my 都 会 重新 设置 这 个 全 。 

问题 的 关键 残 在 于 ， 内 骨 代 人 码 中 的 my 变量 “锁定 ”( 用 术语 来 说 束 


je: Hiboud) 在 具体 的 my 变量 的 实例 中 ， 此 实例 在 正则 表达 陈 编 译 
时 激活 。“ 正 则 表达 式 的 编译 详 见 348 W) 每 次 调用 CheckOptimizer， 
都 会 创造 一 个 新 的 $start 实 例 ， 但 是 用 户 很 难以 去 党， 内 秽 代 但 中 的 
$start 仍 然 指 问 之 前 的 仁 。 这 样 ， 函 数 其 他 部 分 使 用 的 $start 实 例 并 没有 
接收 到 正则 表达 云 中 传递 给 它 的 什 。 

这 种 类 型 的 实例 绑 定 称 为 * 团 包 (closure) ”, Programming ”Perl 和 
Object Oriented ”Perl 之 类 的 书 中 介绍 了 这 种 特性 的 价值 所 在 。 关 于 财 
包 ，Perl 社 群 中 存在 争议 ， 比 如 本 例 中 闭 包 客 竟 是 不 是 一 种 “特性 ?”， 驶 
有 不 同 看 法 。 对 大 多 数 人 来 襄 ， 这 很 难 理解 。 

解决 的 办 法 是 ， 不 要 在 正则 表达 式 内 部 引用 my 变量 ， 除 非 你 知道 
正则 文字 的 编译 与 my 实例 的 更 新 是 一 致 的 。 比 如 我 们 知道 ， 第 345 页 
SimpleConvert 子 程序 中 使 用 的 my 变量 $NestedStuffRegex 没有 这 个 问 
wl, 因为 $NestedStuffRegex 只 有 一 个 实例 。 这 里 的 my 不 在 函数 或 者 循 
pail 所 以 它 只 会 在 脚本 载 入 时 创建 一 次 ， 然 后 一 直 存 在 ， 直 到 程序 
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法 也 没 坏 处 ， 所 以 接 下 来 我 会 给 出 这 种 办 法 。 

办 法 很 简单 : 记录 已 经 过 到 的 未 配对 开 插 号 的 数量 ， 只 有 此 数量 大 
于 0 时 ， 才 容许 出 现 财 括号 。 在 匹配 文本 的 过 程 中 ， 我 们 使 用 和 内藤 代 码 
aig 不 过 在 这 之 前 必须 得 看 看 (目前 还 不 能 运行 的 ) 正则 表达 去 的 
EX. 


my SNestedGuts = qr{ 
(2> 
tri 
E 除 括 号 之 外 的 字符 
Le E 
E FF 
| AN 
# 闭 括号 
| \) 
i * 
) 
}x; 
为 了 你 证 效率 ， 我 们 使 用 了 国 化 分 组 ， 因 为 如 果 $NestedGuts HF 
更 大 的 正则 表达 式 ， 束 可 能 导致 回 湖 ， 这 样 "〈[.…]+|…) 类 束 会 造成 
FEVRIEVE RC C226) 。 人 举例 来 说 ， 如 末 我 们 将 其 作为 "mA 
($NestedGuts\) $/x, 的 一 部 分 ， 应 用 到“ (this'is:missing'the'close" 中 ， 
如 果 没 有 使 用 固化 分 组 ， 束 得 在 记录 和 回 湖 上 人 花费 漫长 的 时 间 。 
为 了 配合 计数 ， 我 们 需要 4 步 : 
0 计数 必须 从 0 开始 : 
(?{local $OpenParens=0 }) 
eam Ss, MCA, ANAM SIA LEC. 
(?{$OpenParens+-+ }) 
= 遇 到 闭 括号 ， 融 检查 记 数 器 ， 如 采 大 于 0， 就 减 去 1， 表 示 已 经 匹 
配 了 一 对 括号 。 如 采 等 于 0， 职 停止 下 配 《〈“ 因 为 财 括 扎 与 开 括 亏 不 匹 
Ac) ， 所 以 用 '(? ! ) 强迫 匹配 失败 。 
(?(2{$OpenParens}) (?{$OpenParens--})|(?!)) 
这 里 使 用 了 C? if thenlelse) AEFI C140) , AA aR RASA 
汤 记 数 嚣 ， 作 为 了 部 分 。z -AVLACA Rea, TRE ST 0, 
侍 则 说 明 仍 然 有 未 匹配 的 开 括 写 ， 因 此 匹配 失败 。 
(?(?{$OpenParens!=0})(?!)) 
综合 起 来 束 得 到 : 


my SNestedGuts = qr{ 
(?{ local S$OpenParens = 0 }) # 0 计算 未 结束 的 开 括 号 的 数目 
(?> # 固化 分 组 ， 提 高 效率 
(pr 
# 除 括号 以 外 的 字符 
[I 
E FEF 
| \( (?{ $OpenParens++ }) 
# 二 闭 括号 
| \) (2(?{ $OpenParens != 0 }) (?{ SOpenParens-- }) | (?!) ) 
)* 
) 
(?(?{ $OpenParens != 0 })(?!)) # 关 如 果 还 有 开 插 号， 则 匹配 未 结束 
}x; 
这 段 程 序 的 使 用 方法 与 第 330 页 的 $LevelN 完 全 相同 。 
为 了 分 离 正 则 表达 式 中 的 $OpenParens 和 程序 中 可 能 出 现 的 其 他 全 
局 变量 ， 这 里 使 用 了 local。 但 local 的 用 法 与 之 前 的 不 同 ， 这 里 不 需要 如 
锡 回 湖 ， 因 为 正则 表达 式 使 用 了 固化 分 组 ， 一 旦 条 个 多 选 分 文 能 够 号 
配 ， 隐 不 会 变 为 “交还 ”。 这 样 ， 固 化 分 组 既 保 证 了 效率 ， 又 保证 了 内 舰 
代码 结构 附近 匹配 的 文本 不 会 在 回调 中 交还 〈 这 样 4$OpenParens W- E 
际 匹 配 的 开 括 气 数 目 一 致 ) 。 


正则 文字 重 载 


Overloading Regex Literals 
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字 部 分 。 下 面 几 市 给 出 了 例子 。 

添加 单词 起 始 /结束 元 字符 

Perl 没 有 提供 作为 单词 起 始 /结束 元 字符 的 \ 过 和 人 > |, A BEE 
绝 大 多 数 情况 下 b 已 经 够 用 了 。 不 过 ， 如 果 我 们 希望 使 用 这 两 个 元 字 
人 符 ， 我 们 可 以 通过 重 载 ， 将 表达 陈 中 的 ^ 过 :和 > 分别 香 换 为 C2 
<!\w) (? =\w) 和 ' (? <=\w) (? ! \w) o 

先 创建 一 个 函数 ，MungeRegexLiteral， 进 行 需要 的 预 处 理 : 


sub MungeRegexLiteral ($) 

{ 
my ($RegexLiteral) =@; # ARAFA Ë 
SRegexLiteral =~ s/\\</(2?<!\\w) (2=\\w)/g; # 模拟 单词 起 始 边界 \< 
SRegexLiteral =~ s/\\>/(?<=\\w) (2?!\\w)/g; # 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 串 


如 果 给 此 函数 传递 字符 串 '..\ 二 ...”*”， 它 会 将 其 转化 为 '...(? <! 
\w) (? =\w) ...”。 记 住 ， 因 为 replacement 部 分 类 似 双 引号 字符 串 ， 所 
Wg BEA AWER “Ww o 

为 了 让 它 能 够 日 动 处 理 正则 文学 的 每 个 文字 部分， 我 们 将 其 存 入 文 
件 MyRegexStuff.pm， 供 Perl 重 载 : 
package MyRegexStuff; # 起 个 特殊 的 名 字 
use strict; # 这 是 个 好 习惯 
use warnings; # 这 也 是 个 好 习惯 
use overload; # 启用 Perl 的 重 载 机 制 

# A regex handler.... 
sub import { overload::constant qr => \&MungeRegexLiteral } 


sub MungeRegexLiteral ($) 

{ 
my (SRegexLiteral) = @ ; + 参数 是 字符 串 
SRegexLiteral =~ s/\\</(?<!\\w) ( ) /9; # 模拟 单词 起 始 边界 \< 
SRegexLiteral =~ s/\\>/(?<=\\w) ( ) /9; + 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 串 

} 


?=\\w 
2! \\w 


ly # 标准 做 法 ，'use' 此 文件 肯定 会 返回 true 
将 MyRegexStuff.pm 放 在 Perl 的 库 路 径 (library path， 请 参考 Perl 文 
MiP APERLLIB) 下 ， 所 有 第 要 使 用 此 功能 的 Perl 脚本 都 可 调用 。 如 林 
只 是 为 了 测试 ， 可 以 将 其 放 在 测试 脚本 同一 目录 内 ， 这 样 调用 : 
use lib ','> # 在 当前 目录 中 寻找 库 文件 
use MyRegexStuff; # 现在 可 以 使 用 此 功能 了 


$text =~ s/\s+\</ /g; # 将 单词 之 前 任意 数目 任意 形式 的 空白 字符 替换 为 单个 空格 


LE 


每 个 需要 这 样 处 理 正 则 文字 的 程序 文件 都 必须 使 用 MyRegexStuff， 
但 是 MyRegexStuff.pm 只 需要 构建 一 次 〈 此 功能 在 MyRegexStuff.pm 内 
部 不 可 用 ， 因 为 它 没 有 use MyRegexStuff 一 -一 我 们 肯定 不 会 这 样 做 ) 。 

BASIN h A 56 = Wl 

我 们 继续 完善 MyRegexStuff.pm， 让 它 支 持 占 有 优先 量词 例如 
xt+ (8142) 。 占 有 优先 量词 的 作用 类 似 普 通 的 匹配 优先 量词 ， 只 是 
它们 永远 不 会 释放 (也 就 是 “交还 ”) 任何 已 经 匹配 的 内 容 。 用 固化 分 组 
来 模拟 的 话 ， 只 需要 去 挥 最 后 的 +”， 把 量词 修饰 的 所 有 内 容 放 到 国 化 
分 组 里 ， regex 类 + WI (? >>regex*) (173) 。 

占有 优先 量词 限定 的 部 分 可 以 是 括 写 内 的 表达 式 ， 也 可 以 是 \w 或 
者 \x{1234} 之 美的 元 序列 ， 或 是 普通 字符 。 要 处 理 所 有 情况 并 不 容 
吻 ， 所 以 为 向 便 起 见 ， 我 们 只 关注 作用 于 括号 的 ? +、 关 + 和 ++。 有 了 
330 页 的 $LevelN， 我 们 可 以 把 这 段 程 序 : 

$RegexLiteral=~s/(\($LevelN\)[ * +?])\+/(2 > $1)/gx; 

还 加 到 MungeRegexLiteral K ži. 

现在 ， 它 成 为 overload package 的 一 部 分 ， 我 们 可 以 在 正则 文字 中 使 
用 占有 优先 量词 ， 例 如 第 198 页 的 这 个 例子 : 

tbere == Sf" Qi \ a | [I]; # AAPG SF HH 
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的 变数 很 多 ， 下 面 是 一 种 答 试 : 








SRegexLiteral =~ s{ 
( 
# 匹配 可 能 的 限定 对 象 


(2: \\[\\abCdDefnrsStwWXx] kE m. pe a 
| Yeu F VEA 
| \\x[{\da-fA-F] {1,2} # \xFF 
| \\x\{ [\da-fA-F] *\} E Ve Lest 
| Bel STI} $ \p{DEECEr)} 
| ALEE ae] # FA 
| \\\W # \* 
| \( $LevelN \) - ee] 
| [ee eeP # ”其 他 任何 字符 
) 
E iea AE esi 


| 
) 
\+ # ..Fe SWZ + 
Fi (2281) boxe 
这 个 表达 式 的 大 体形 式 和 之 前 一 样 : 使 用 占有 优先 量词 匹配 一 些 内 
容 ， 去 挥 最 后 的 +，， 将 整个 表达 式 用 '(? >...) 围 起 来 。 要 想 识别 
Perl 正则 表达 式 的 复杂 语法 ， 这 样 还 很 不 够 。 匹 配 字 符 组 的 部 分 哎 需 改 
进 ， 因 为 它 并 不 能 识别 字符 组 内 部 的 转 义 。 更 粳 糕 的 是 ， 这 个 表达 式 的 
基本 思路 有 问题 ， 因 为 它 不 能 完整 识别 Perl HEURA. kin, Ew 
不 能 正确 处 理 ^ Cblah\) ++’ 中 作为 普通 字符 的 开 插 号 ， 而 是 认为 ++ 仪 
仅 限 定 \) 。 
解雇 这 个 问题 得 花 许 多 工夫 ， 或 许 得 想 办 法 从 前 往 后 仔细 通 历 整个 
正则 表达 去 《类 似 第 132 页 的 补充 内 容 中 的 办 法 ) 。 我 本 来 布 望 改 善 处 
理 字 符 组 的 元 素 ， 但 是 最 后 觉得 没 必要 处 理 其 他 复杂 情况 ， 原 因 有 两 
个 。 第 一 个 是 ， 这 个 表达 式 能 应 付 大 部 分 正 第 的 情况 ， 所 以 修正 处 理 字 
从 组 的 元 对 就 能 满足 实用 要 求 了 。 更 重要 的 一 点 是 ， 目 前 Perl 的 正则 表 
达 式 重 载 有 严重 问题 ， 结 果 它 的 用 途 大 打 扩 扣 ， 讨 论 见 下 一 玫 。 


正则 文 衬 重 载 的 问题 


Problems with Regex-Literal Overloading 
正则 文字 重 载 的 功能 非常 有 用 ， 至 少 在 理论 上 是 如 此 ， 不 幸 的 是 实 
际 情 况 并 非 如 此 。 问 题 在 于 ， 它 只 对 正则 文字 中 的 文字 部 分 有 效 ， 而 不 
会 影响 插值 部 分 。 例 如 ， 在 m/ ($MyStuff) 大 +/ 中 MungeRegexLiteral 


函数 调用 了 两 次 ， 一 次 是 在 变量 插值 之 前 OC); 男 一 次 是 插值 之 后 
(“) *+") 。( 它 永远 不 会 影响 $MyStuff 的 值 ) 。 因 为 重 载 必 须 同 时 
找到 两 个 部 分 ， 而 搬入 的 值 又 是 不 确定 的 ， 所 以 实际 上 重 载 不 会 生效 。 

对 之 前 添加 的 \ 三 各 \ 过 来 说 ， 这 不 是 个 问题 ， 因 为 变量 蔡 换 不 太 可 
能 把 它们 切 段 。 但 是 因为 重 载 不 会 影响 插值 变量 ， 包 含 人 = RANSON Se 
符 串 或 regex 对 象 就 不 会 受 重 载 影响 。 上 一 节 已 经 提 到 ， 如 果 由 重 载 来 
处 理 正 则 文字 ， 就 很 难 每 次 都 保证 完整 性 和 准确 性 。 即 使 是 与 \> 一 样 
简单 也 会 出 问题 ， 例 如 忆 >:， 它 表示 反 和 斜 线 裤 之 后 紧 跟 人 尖 括 号 盖 ，。 

另 一 个 问题 是 ， 重 载 不 知道 正则 表达 式 所 使 用 的 修饰 侍 。 表 达 式 是 
奋 使 用 了 /x 是 很 重要 的 问题 ， 但 重 载 没有 确切 的 办 法 知道 。 

最 后 还 必须 指出 ， 使 用 重 载 会 禁止 根据 Unicode 命 名 指定 字符 的 功 
fe ('\N{name} 2290) 。 


模拟 命名 捕获 


Mimicking Named Capture 

讲 完 了 重 载 的 不 便 之 后 ， 我 们 来 看 看 综合 了 许多 特殊 结构 的 复杂 例 
子 。Perl 没 有 提供 命名 捕获 C138) 的 功能 ， 但 是 我 们 可 以 使 用 捕获 型 
HMHN (F301) 来 模拟 ， 这 个 变量 引用 的 是 最 近 结 束 的 捕获 型 
括号 匹配 的 内 容 〈 现 在 我 假扮 Perl 开 发 人 员 ， 使 用 $AN， 特 意 为 Perl 增 加 
命名 捕获 的 功能 ) o 

Ag fe) FLAN Wo) Fe 


href\s*=\s* (SHttpUrl) (?{ Surl = $^N })) 
As 


这 里 使 用 了 303 页 的 regex 对 象 $HttpUrl。 下 辆 线 部 分 是 一 段 内 风 代 
僻 ， 把 $HttpUI 匹 配 的 内 容 保存 到 $unl 中 。 在 这 里 用 $AN 取 代 $1 似 乎 有 些 
多 此 一 人 举 ， 其 至 不 必要 使 用 内 骸 代 人 码 ， 因 为 在 罗 配 之 后 使 用 $1 更 加 方 
便 。 但 是 如 果 把 其 中 一 部 分 封装 到 regex 对 象 ， 然 后 多 次 使 用 : 


my $SaveUrl = qr{ 


($SHttpUr1) # 匹配 HTTP URL... 
(?{ surl = fk) # .. .保存 到 $url 
xX; 
Stext =~ m{ 


http \s*=\s* ($SaveUr1) 
| src \s*=\s* ($SaveUr1) 
| xi; 


无 论 $HttpUa 是 怎么 匹配 的 ，$un 都 会 被 设置 为 ，URL。 在 这 个 简单 
应 用 中 可 以 使 用 其 他 办 法 (例如 $+ 变量 S301) ， 但 是 在 更 复杂 的 情况 
i $SaveUrl 之 外 的 办 法 更 难 维护 ， 所 以 将 它 保存 到 命名 变量 中 方便 得 


这 里 有 一 个 问题 ， 如 果 设 定 $unl 的 结构 在 回 湖 中 被 “交还 ”?， 己 设 定 
的 值 却 不 会 “撤销 保存 (unwritten) ”。 所 以 要 在 初始 匹配 时 修改 本 地 化 
的 临时 变量 ， 只 有 在 整体 匹配 真正 确认 之 后 才 保 存 “ 真 正 ? 的 变量 ， 束 像 
第 338 页 的 例子 一 样 。 

下 面 给 出 了 一 种 解决 办 法 。 从 用 户 的 角度 来 看 ， 在 " (? <Num> 
\d+) 之 后 ，Nd+ 匹配 的 数值 仍然 可 以 以 $AN{Num} 访 问 。 尽 管 未 来 成 
本 的 Perl 可 能 会 把 %AN 转 换 为 霖 种 特殊 的 系统 杰 量 ， 现 在 仍然 不 是 特殊 
的 ， 所 以 我 们 可 以 随意 使 用 。 

我 们 可 以 使 用 %NamedCapture 之 类 的 名 字 ， 但 选择 %AN 是 有 理由 
的 。 之 一 是 它 类 似 $AN。 画 一 个 理由 是 ， 如 果 写 明了 use strict, UAT 
要 预 声 明 。 最 后 ， 我 希望 Per 最 终 会 内 建 对 命名 捕获 的 文 持 ， 上 所 以 我 认 
为 9%AN 是 个 好 办 法 。 如 果 果 真如 此 ，%AN 就 能 够 和 正则 表达 式 的 其 他 变 
= (299) 一 样 ， 目 动 使 用 动态 作用 域 。 但 是 目前 ， 它 只 是 普通 的 全 
局 变量 ， 所 以 不 会 目 动 使 用 动态 作用 域 。 

当然 ， 即 便 是 这 个 程序 也 会 出 现 正则 文字 重 载 的 办 法 所 具有 的 加 
题 ， 例 如 不 能 处 理 插 值 变 量 。 


模拟 命名 捕获 


package MyRegexStuff; 
use strict; 

use warnings; 

use overload; 


sub import { overload::constant('gr' => \&MungeRegexLiteral) 


my $NestedStuffRegex; # 在 自身 定义 中 使 用 ， 必 须 预 声明 


SNestedStuffRegex = qr{ 
(?> 
(2: # 非 括 号 非 转 义 的 字符 ... 
m VFN \ J+ 
E PATR oa 
| Goes Aa 3 
# 正则 表达 式 注释 ... 
| \ #.*\n 
# CRRA... 
| \( (??{ $NestedStuffRegex }) \) 
) * 


} x; 


sub SimpleConvert ($); # 递归 调用 ， 必 须 预 声明 


sub SimpleConvert ($) 

{ 
my Sre = shift; # 要 处 理 的 表达 式 
Sre =~ s{ 


NEN? # a ie 

< ¢ (2>\wt) ) > # <$1 > $1 RRA 

( $NestedStuffRegex ) # $2 - 可 能 出 现 的 嵌 套 结构 
\) # aks "tha 


} { 
my Sid = $1; 
my Sguts = SimpleConvert ($2); 
把 
(?<id>guts) 
改 为 
(?: (guts) # 配 guts 
C24 


}) 
) 


Se SF Se Se SF OSE OSH 


local ($^N{$id}) = Sguts # 保存 ST 中 的 本 地 化 元 素 


"Ir: (Sguts) (7f TocalL tS TS = WN T 


}xeog; 


return S$re; # 返回 处 理 结 果 


} 


sub MungeRegexLiteral ($) 
{ 


my (S$RegexLiteral) = @ ; # 套数 为 字符 事 


# print "BEFORE: $RegexLiteral\n"; 
my Snew = SimpleConvert ($RegexLiteral) ; 
if ($new ne $RegexLiteral) 


# WARY HR EF 


} 


my $before = q/(?{ local(%*T) = () })/; # 本 地 化 临时 hash 变量 
my Safter =a (H YH = WT })/; # 把 它们 找 贝 到 "真正 的 "hash 变量 
SRegexLiteral = "Sbefore(?:Snew) Safter"; 


} 

# print "AFTER: $RegexLiteral\n"; # AREIK iz 48 
return SRegexLiteral; 

1; 





Perl Efficiency Issues 

在 大 多 数 情 况 下 ，Perl 中 正则 表达 式 的 效率 问题 与 任何 使 用 传统 
NFA 的 工 其 一 样 。 第 6 章 介 绍 的 技巧 一 一 内 部 优化 、 消 际 人 循环， 以 及 “ 开 
动 你 的 大 脑 ”， 都 适用 于 Perl。 

当然 ，Perl 也 有 专属 于 上 自己 的 问题 ， 这 一 节 我 们 整 来 看 看 : 

e 兴 法 不 止 一 种 Perl 吏 像 一 个 工具 箱 ， 同 一 种 问题 可 以 用 许多 办 法 
来 解决 。 理 解 了 Perl 的 思维 方式 ， 驶 会 明日 哪些 问题 是 钉子 ， 但 是 选择 
合适 的 锤子 还 需要 伦 很 多 工夫 来 编写 高 效 而 易于 理解 的 程序 。 有 时 候 ， 
et ee ee 不 过 一 旦 理解 深入 了 ， 残 能 做 出 更 好 

e 表 达 式 编译 、qr/.../、/o “修饰 符 和 效率 ”正则 运算 符 的 编译 和 插 
值 ， 做 得 好 的 话 能 节 符 大 量 的 时 间 。y/o 修饰 符 还 没有 详细 讲解 ， 它 配合 
regex 对 象 Cqr/.../) ， 能 够 调控 耗 巡 时 间 的 重 编译 过 程 。 

e$& 的 负面 影响 伴随 效应 设 定 的 变量 5 、$& 和 5， 也 许 很 方便 ， 
但 存在 不 多 发 现 的 效 靳 陷阱 ， 哪 介 只 出 现 了 一 次 ， 也 可 能 融 来 及 烦 。 所 
以 并 不 是 非得 使 用 它们 只 要 脚本 中 出 现 了 任意 一 个 变量 ， 负 面 影 啊 
LAS FY ake fa,» 

eStudy PAY 近年 来 ，Perl 提供 了 study ©...) KZ REMH, E 
能 提高 正则 表达 式 的 速度 ， 但 是 似乎 没有 人 真正 知道 它 是 含 能 提高 速 
度 ， 以 及 背后 的 原因 。 

e 性 能 测试 性 能 测试 的 规 沧 束 是 ， 越 快 的 程序 终止 得 越 早 〈( 你 可 以 
引用 我 的 话 〉)。 无 论 小 型 疯 数 、 大 型 疯 数 ， 还 是 处 理 真 实数 据 的 整个 程 
序 ， 性 能 测试 都 是 判断 速度 的 了 最终 标 准 。 尽 管 性 能 测试 有 各 种 各 样 的 区 
法 ，Perl 中 的 性 能 测试 却 古 简 蛙 而 轻松 的 。 我 会 给 出 我 用 的 办 法 ， 这 个 
办 法 在 写作 本 书 时 做 过 数 百 次 性 能 测试 。 

e 正则 表达 式 调试 Perl 的 正则 表达 式 调 试 标识 位 (debug flag) 可 以 
告诉 我 们 ， 正 则 引 敬 和 传动 装置 对 正则 表达 式 进 行 了 哪些 优 人 化。 下面 会 
讲解 如 何 答 看 这 些 信 息 ， 以 及 Pen 包含 了 哪些 秘 黎 。 


办 法 不 只 一 种 


"There's More Than One Way to Do It" 





通常 ， 一 个 问题 上 是 有 许多 种 解法 ， 所 以 在 权衡 效率 和 可 读 性 时 ， 
应 该 做 的 束 是 了 解 所 有 的 办 法 。 来 看 个 简单 的 问题 ， 修 改 一 个 IP 地 址 ， 
例如 ‘18.181.0.24”， 保 证 每 一 段 都 包含 三 位 数字 : “018.181.000.024”。 简 
单 的 办 法 是 : 

$ip=sprintf( " %03d.%03d.%03d.%03d " ,split(/./,$ip)); 

这 办 法 当然 没 错 ， 但 显然 还 有 其 他 的 解决 办 法 。 表 7-6 列 出 了 好 几 
种 办 法 ， 比 较 了 它们 的 效率 〈 按 照 效率 排序 ， 最 上 面 的 效率 最 高 ) 。 这 
个 例子 的 目的 很 简单 ， 本 刁 也 没有 太 多 价值 ， 但 是 它 能 代表 人 简单 的 文本 
A E EEE 
Whit. 

如 果 输 入 格式 正确 的 卫 ， 每 个 办 法 都 能 到 正确 的 结果 ， 但 是 如 果 输 
入 别 的 数据 则 可 能 会 出 钳 。 如 果 数 据 是 不 规范 的 ， 可 能 束 需 要 多 人 花 点 心 
思 。 除 此 之 外 ， 实 际 差 别 在 于 效率 和 可 读 性 。 束 可 读 性 而 言 ， 并 1 和 并 
13 似 乎 是 最 好 理解 的 〈 尽 管 效率 上 存在 巨大 的 兰 异 ) 。 同 样 易 于 理解 的 
是 并 3 和 并 4 类似 #1) , WR#HB 类似 #13) 。 其 他 解法 都 太 过 复杂 
ie 
那么 效率 呢 ? 为 什么 不 同 的 解法 有 不 同 的 效率 ? 原因 在 于 NFA 的 工 
ERE (B4) ，Perl 的 各 种 正则 优化 措施 〈 第 6 章 ) ， 以 及 其 他 Perl 
结构 的 处 理 速 度 〈 例 如 sprintf， 以 及 substitution 运 算 符 的 机 制 ) 。 
substitution 运 算 符 的 /e 修 饰 符 ， 有 时 候 昌 然 不 可 或 缺 ， 但 效率 低 的 解法 
似乎 都 使 用 了 它 。 

比较 划 3 和 ##4，##8 和 ##14 很 有 意义 。 这 两 对 正则 表达 式 的 区 别 只 
是 在 于 括号 一 没有 括号 的 表达 式 要 比 有 括号 的 稍 快 一 点 。 并 8 使 用 $&x 
来 避免 括号 带 来 的 高 昂 代 价 ， 性 能 测试 却 无 法 体现 这 一 点 0355) 。 


表达 式 编 译 、/o 修 饰 符 、qr/…/ 和 效率 


Regex Compilation,the/o Modifier,qr/.../,and Efficiency 

Perl 1 5 ZeIK TUR ZS FASE FP ee) ETA N AE VS EF 
后 ， 在 实际 应 用 正则 表达 式 前 ，Perl 必 须 在 幕后 进行 预 处 理工 作 。 真 正 
的 准备 工作 依赖 于 正则 运算 元 的 类 型 。 在 大 多 数 情况 下 ， 正 则 运算 元 是 
正则 文字 ， 例 如 my/.../、s/.../.../ 或 qv.../。Pen 必 须 对 它们 进行 幕后 处 
理 ， 而 处 理 需 要 的 时 间 ， 如 采 可 能 应 该 尽力 避免 。 首 匈 ， 让 我 们 来 看 要 
做 的 事情 ， 然 后 讲解 如 何 避 免 。 

表 7-6: 填补 IP 地 址 的 若干 解法 


排名 


| 





1.0X | Şip 


10x 


L8X | Sip 
| 8x Sip 
23x |7 

Sip 


3.3X | $ip 
34x | > 

Sip 
3.4X | Sip 
3.4X sa 
3.4X | Sip 
3.5% | Sip 
3.6X | $ip 
40X | Sip 


substr ($ip, 
substr ($1p, 


substr ($1p, 
substr ($ip, 
substr 


sprintf ("%03d.$03d. 303d. 


sprintf ("$03d.%03d.%03d.%03d", split(m/\./, 


0) = 10! Lf subetr (Sip, ip 1) eq 1; 
0) = "0" af substr ($ip, 2, 1) eq". 


0) = "0" if substr(Sip, 6, 1) eg '. 
0) = 10! 1f substr($ip, 9, 1) eq '. 


0, 
0, 
substr ($ip; 4, 0) = '0' if substr(Sip, 5, 1) eq '. 
4, 
8, 
8 


Sip, 


sprintf ("s03d.7c03d.%03d.s03d", 


, 0) = "O" af substr($ip,i0, 1) eq '."y 
substr ($ip, 12, 0) = 'O' while length($ip) < 15; 


sprintf ("S03d.%03d.303d.303d", Sip =~ m/\dt+/g) ; 


03d", Sip =~ m/(\d+)/g); 


Sip =~ m/*(\dt)\. (\d+) \. (\d+) \. (\d+) $/) 3 


s/\b(?=\d\b) /00/g; 
s/\b(?=\d\d\b) /0/g; 


s/\b(\d(\d?)\b)/$2 eq '' ? "00S1" : "OS1"/eg; 


s/\d+/sprintf("S03d", $&) /eg; 


s/ (2: (2?<=\.) |^) (2=\d\b) /00/g; 
S/ (2: (?<=\..) ^) (2=\a\a\b) (0/9; 


s/\b(\d\d?\b)/'0' x (3-length($1)) . $1/eg; 


s/\b(\d\b) /00$1/g; 
s/\b(\d\d\b) /051/g; 


s/\b(\d\d?\b) /sprintf ("%03d", $1)/eg; 
s/\b(\d{1,23\b) /sprintf ("$03d",. $1) /eg 
s/(\d+)/sprintf ("%03d", $1) /eg; 
s/\b(\d\d?(?!\d))/sprint£("s03d", $1)/eg; 


s/ (2: (?<=\.) 1%) (A\d\d? (2! Yd) ) /sprintf ("303d" 


, $1) /eg; 


预 处 理 正则 表达 式 的 内 部 机 制 

预 处 理 正 则 运算 元 的 机 制 在 第 6 草 有 所 涉及 〈241) ， 不 过 Perl 还 有 
自己 的 处 理 。 

Perl 对 正则 运算 符 的 预 处 理 大 致 分 为 两 步 : 

1. 正则 文字 处 理 如 条 运算 符 是 正则 文字 ， 驳 按照 “正则 文字 的 解析 
Fisk” (292) 中 的 描 

述 来 处 理 。 变 量 插值 瓯 有 发生 在 这 一 步 。 

2. 正则 编译 检查 正则 表达 式 ， 如 果 人 符合 规则 ， 束 将 其 编译 为 适用 
于 正则 引擎 实际 应 用 的 内 

EARS MRAR, MIRE) 。 

IEW AR sea, MaK BI A peepee, S 
第 4 到 第 6 章 。 

并 不 是 每 使 用 一 次 正则 运算 符 ， 驳 需要 进行 一 次 预 处 理 。 但 是 正则 
文字 第 一 次 使 用 时 ， 必 须 进行 预 处 理 ， 但 如 果 多 次 执行 同样 的 正则 文字 
(例如 在 循环 中 ， 或 是 调用 多 雇 的 函数 ) ，Perl 有 了 时候 能 够 午 用 之 前 的 
工作 。 下 一 节 说 明了 Perl 如 何 做 到 这 一 点 ， 以 及 程序 员 可 以 使 用 的 提高 
效率 的 技巧 。 

减少 正则 编译 的 步 又 

下 和 面 几 节 中 我 们 会 见 到 Perl 避免 菜 些 正则 文字 相关 预 处 理 的 两 种 办 
法 : 无 条 件 绥 存 (unconditional caching) 和 按 需 重 编译 (on-demand 
recompilation) 。 

TORRE RAF 

如 末 正 则 文字 中 没有 插值 变量 ，Perl 承 知道 这 个 正则 表达 陈 在 两 次 
应 用 之 间 不 会 变化 ， 所 以 第 一 次 编译 完成 之 后 ， 会 保存 编译 的 形式 
CRT) ， 以 备 将 来 使 用 。 无 论 正则 表达 式 会 执行 多 少 次 ， 只 需要 检 
合 和 编译 一 次 。 本 书 中 的 大 多 数 正则 表达 式 都 没有 变量 持 住 ， 因 此 从 这 
个 方面 来 说 效率 无 可 挑 吻 。 

内 骸 代 码 和 动态 正则 结构 中 的 变革 则 不 属于 此 类 ， 因 为 它们 不 会 插 
值 到 正则 表达 式 中 ， 而 是 作为 正则 表达 式 执 行 的 固定 代码 的 一 部 分 。 有 有 
时 候 ， 你 可 能 希望 每 次 执行 都 解释 内 骸 代 人 码 中 引用 的 my 和 变量 ， 请 不 要 
护 记 第 338 由 的 忠告。 

有 一 点 要 说 清 杷 ， 绥 存 的 持续 时 间 与 代码 的 执行 时 间 相 同 ， 下 次 运 
行 同 样 代码 时 不 会 有 任何 的 缓存 。 

按 需 重 编 详 

并 不 是 所 有 的 正则 运算 元 都 能 够 直接 缓存 ， 比 如 下 面 的 代码 : 


my $today = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 
# Stoday 保存 的 是 星期 数 ("Mon"，"Tue" 之 类 ) 


while (<LOGFILE>) { 
if (m/*§$today:/i) { 


m/A$today: /中 的 正则 表达 陈 需 要 插 仁 ， 虽 然 在 循环 中 使 用 ， 但 每 
轮 循环 的 插值 结构 是 相同 的 。 所 以 一 再 童 复 编 详 同 样 的 表达 式 的 效率 很 
低 ， 所 以 Perl 会 目 动 进行 简单 的 字符 串 检 查 ， 比 较 本 次 和 上 次 插 信 的 疆 
末 。 如 采 相 同 ， 吏 使 用 上 次 的 缓存 。 如 采 不 同 ， 吏 重新 编译 正则 表达 
式 。 所 以 ， 对 比 绥 人 存 全 并 重新 插 信 尽 可 能 避免 了 相对 更 耗 时 的 编 详 。 

JOE FL bane AA ZT TENE? 非常 多 。 举 例 来 说 ， 我 测试 了 第 303 
页 的 $HttpUrl 〈 使 用 扩展 的 $HostnameRegex) 的 三 种 预 处 理 方式 。 设 计 
的 性 能 测试 能 准确 体现 预 处 理 的 开销 《使 用 皇 仁 、 字 人 符 串 检 租 、 编 详 ， 
以 及 其 他 后 台 任 务 )， 而 不 是 表达 式 应 用 的 整体 开销 ， 因 为 在 任何 情况 
下 这 种 应 用 的 时 间 都 是 一 样 的 。 

结束 非 负 有意思。 我 运行 了 没有 插 信 的 厂 本 《整个 正则 表达 却 都 便 
编码 在 ”mv.../ 中 ) ， 用 它 作 为 比较 的 基础 。 如 末 正 则 表达 却 每 轮 循环 不 
会 改变 ， 比 较 并 插值 大 和 概 需 要 25 倍 的 时 间 。 完 整 的 预 处 理 〈 每 轮 循环 都 
要 重新 编译 ) 大 概 需 要 1 000 倍 的 时 间 ， 这 数字 真 惊人 ! 

应 用 到 实际 场合 吏 会 及 现 ， 完 整 的 预 处 理 即 使 比 毅 态 正则 文字 预 处 
理 要 慢 1 000 倍 ， 在 我 的 机 左上 也 只 需要 大 约 0.00026 秒 〈 测 弃 的 速度 旦 
每 秒 3 846 次 ， 相 反 ， 议 态 正 则 文字 预 处 理 的 速度 是 每 秒 370 万 次) o 
然 ， 不 使 用 插值 能 够 节省 的 时 间 非 党 可 观 ， 不 进行 章 编 详 节 省 的 时 间 显 
然 也 很 可 观 。 下 面 几 市 ， 我 们 会 考察 如 何在 更 多 情况 下 使 用 这 些 技巧 。 

表示 “一 次 性 编译 ”的 /0 修饰 符 

税 蛙 地 说 ， 如 果 正 则 文字 运算 元 中 使 用 了 /o 修 饰 从 ， 它 束 会 只 会 检 
但 和 编 详 一 次 ， 而 无 论 是 否 包 含 插值 。 如 来 没有 插值 ， 洪 加 /o 不 会 有 任 
何 改变 ， 因 为 没有 插值 的 表达 式 总 是 会 自动 绥 存 。 但 如 果 使 用 了 插值 ， 
程序 执行 第 一 次 过 到 正则 文人 学时， 会 进行 正 第 的 完整 的 预 处 理 ， 但 因 
为 /o 的 存在 ， 内 在 状态 会 存储 下 来 。 如 果 之 后 又 遇 到 这 个 正则 运算 元 ， 
就 会 直接 调用 缓存 。 

下 面 这 个 例子 之 前 也 出 现 过 ， 只 十 现在 添加 了 /o: 


my Stoday = (gw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 


while (<LOGFILE>) { 
if (m/*Stoday:/io) { 


这 个 表达 式 要 快 得 多 ， 因 为 从 第 二 次 开始 的 每 轮 循 环 中 ， 正 则 表达 
式 都 忽略 了 $today。 不 需要 插值 ， 也 不 需要 预 处理 和 重新 编译 正则 表达 
式 ， 能 够 节省 大 量 的 时 间 ， 而 这 是 Perl 无 法 自动 完成 的 ， 因 为 使 用 了 变 
量 插 信 ，$today 可 能 会 变化 ， 所 以 为 了 安全 ，Perl 必 须 每 次 都 检查 。 使 
用 /o 就 告诉 Perl， 在 第 一 次 预 处 理 和 编译 完成 之 后 “锁定 ”这 个 表达 式 。 
因为 我 们 知道 ， 插 值 变 量 是 不 变 的 ， 即 使 变化 了 ， 也 不 希望 使 用 新 值 ， 
所 以 这 样 做 完全 没 问 题 。 

ORI E a BH” 

在 使 用 /o 时 ， 有 个 重要 的 “陷阱 ”必须 要 注意 。 例 如 下 面 这 个 函数 : 

sub CheckLogfileForToday () 


{ 
my stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 


while (<LOGFILE>) { 
if (m/*S$today:/io) { # 危险 一 一 这 里 要 小 心 


} 
} 


记 住 ，/o 表 示 正 则 运算 元 只 需要 编 详 一 次 。 第 一 次 调用 
CheckLogfileForToday O 时 ， 代 表 当 天 日 期 的 正则 运算 元 残 锁 定 在 其 
中 。 如 采 过 了 一 段 时 间 再 次 调用 这 个 函数 ， 即 使 gtoday 变 化 了 ， 也 不 会 
重新 检 奏 ;在 程序 执行 过 程 中 ， 每 次 使 用 的 都 是 最 开始 锁定 在 其 中 的 正 
则 表达 式 。 

这 个 问题 很 严重 ， 不 过 下 一 节 中 ，regex 对 象 提供 了 两 全 其 美的 解 
决 办 法 。 

用 regex 对 象 提 高 效率 

迄今 为 止 ， 我 们 看 到 的 所 有 关于 预 处 理 的 讨论 都 适用 于 正则 文字 。 
其 目的 在 于 化 尽 可 能 少 的 工夫 获得 编译 好 的 正则 表达 式 。 达 到 此 目的 的 
另 一 个 办 法 是 使 用 regex 对 象 ， 把 编译 好 的 正则 表达 式 封 装 在 变量 内 部 
供 程序 使 用 。 可 以 使 用 qv.../ 创 建 regex 对 象 (303) 。 

下 面 是 使 用 regex 对 象 的 例子 : 


sub CheckLogfileForToday ( ) 


{ 
my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 


my $RegexObj = gqr/*Stoday:/i; # 每 次 调用 编译 一 次 


while (<LOGFILE>) 
if ($ =~ $RegexObj) { 


| 
} 
} 


REV FARA, MEEA regex gR, (He ZIRE Ae 
直接 用 于 log 文 件 的 每 一 行 。 如 果 regex 对 象 用 做 运算 元 ， 它 不 会 进行 前 
面 介绍 的 任何 预 处 理 。 预 处 理 是 在 regex 对 象 创 建 而 不 是 使 用 时 进行 
的 。 可 以 把 regex 对象 想象 为 “ 目 动 设 定 的 正则 缓存 ”， 这 个 编 详 好 的 表 
达 式 可 以 在 任何 地 方 使 用 。 

这 个 办 法 莱 其 了 两 方面 的 优点 : 它 效率 高 ， 因 为 只 有 在 每 次 图 数 调 
用 《而 不 是 log 文 件 的 每 一 行 ) 时 才 会 编 详 ， 但 是 ， 与 之 前 错误 使 用 /o 的 
例子 不 同 ， 即 使 多 次 调用 CheckLosgfile-ForToday © ， 也 没有 问题 。 

需要 卉 清楚 的 是 ， 这 个 例子 中 出 现 了 两 个 正则 运算 元 。 正 则 运算 元 
qr/.../ 并 不 是 一 个 regex 对 象 ， 但 能 从 接收 的 正则 文字 创建 regex WR. 
然后 这 个 对 象 用 作 循 环 中 match 运算 符 = 一 的 运算 元 。 

regex 对 象 配合 my/.../ 

这 段 程 序 : 

if ($ =~$RegexObj) { 

也 可 以 这 样 与 : 

if (m/$RegexObj/) { 

此 时 已 经 不 是 普通 的 正则 文字 了 ， 尽 管 看 上 去 没有 区 列 。“ 正 则 文 
PRANE Erge 对 象 ， 它 与 直接 使 用 regex 对 象 一 样 。 这 种 做 法 的 
好 处 在 于 : my/.../ 更 为 前 见 ， 更 容易 使 用 。 也 不 用 明确 指定 目标 字符 串 
$_， 方 便 与 其 他 使 用 同样 默认 变量 的 运算 和 从 结合 。 最 后 一 个 原因 是 ， 这 
样 我 们 能 够 对 regex 对 象 使 用 /g。 

/0 配合 qr/.../ 

/0 修饰 符 可 以 配合 qr.../， 但 在 这 里 你 肯定 不 布 望 如 此 。 吏 像 用 /o 配 
合 其 他 任何 正则 运算 符 一 样 ，gr/.../o 在 第 一 次 使 用 正则 表达 式 时 就 会 进 
行 锁 定 ， 所 以 如 果 这 样 写 ， 无 论 $today 如 何 变 化 ， 每 次 调用 这 个 函数 


$RegexObj 使 用 的 都 是 同样 的 regex 对 象 。 这 与 第 352 页 的 m/.…./o 的 问题 


依靠 默认 表达 却 提 局 效率 
正则 运算 符 的 默认 表达 式 (7308) 可 以 提高 效率 ， 尽 管 使 用 regex 
对 象 可 能 更 划算 。 不 过 我 还 是 会 简要 介绍 一 番 。 例 如 : 
sub CheckLogfileForToday () 


my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 


# 直到 匹配 为 止 ， 设 置 默 认 表 达 式 


"Sun:" =~ m/*Stoday:/i or 
"Mon:" =~ m/*Stoday:/i or 
"Tue:" =~ m/*Stoday:/i or 
"Wed:" =~ m/*Stoday:/i or 
"Thu:" =~ m/“Stoday:/1i or 
"Fri:" =~ m/*Stoday:/i or 
"Sati" == m/“Rhodaye/ is 


while (<LOGFILE>) { 
if (m//) { # 使 用 默认 的 表达 式 


使 用 默认 正则 表达 式 的 天 键 在 于 ， 只 有 匹配 成 功 才 会 设置 页 认 值 ， 
所 以 $today 设 和 之 后 还 有 长 长 的 代码 。 你 已 经 看 到 ， 这 相当 不 美观 ， 所 
以 我 不 推荐 这 么 做 。 


理解 “原文 ”副本 


Understanding the"Pre-Match"Copy 

在 匹配 和 替换 时 ，Perl 有 时 必须 动用 额外 的 空间 和 时 间 来 保存 目标 
字符 串 在 匹配 之 前 的 副本 。 我 们 会 看 到 ， 有 时 这 个 副本 会 用 于 支持 重要 
特性 ， 有 时 则 不 会 。 应 该 尽量 避免 不 会 用 到 的 副本 ， 提 高 效率 ， 尤 其 是 
在 目标 字符 第 很 长 ， 或 者 速度 非常 重要 的 情况 下 更 是 如 此 。 

下 一 节 我 们 会 讲解 何 时 以 及 为 什么 Perl 可 能 会 保存 目标 字符 串 的 原 
文 副 本 ， 什 么 时 候 用 到 副本 ， 以 及 在 效率 极 病 重 要 时 ， 如 何 取消 这 个 副 
ASHE Tet BEE 


通过 原文 副本 文 持 $1、$& $h $+... 

对 于 match 或 者 substitution 操 作 的 目标 字符 串 ，Perl 会 生成 一 个 原文 
剧本， 以 文 持 $1、$& 之 类 匹配 后 的 变量 C299) 。 每 次 匹配 完成 之 
后 ，Perl 个 会 实际 生成 这 些 变 量 ， 因 为 许多 变量 (还 有 可 能 是 所 有 ) 根 
本 不 会 极 程 序 用 到 。 相 反 ，Perl 只 是 傈 存 原 始 字 符 串 的 副本 ， 记 住 各 种 
匹配 及 生 在 原来 文本 中 的 位 置 ， 在 使 用 $1 之 类 变量 时 通过 位 置 来 引用 。 
这 种 办 法 不 错 ， 工 作 量 小 ， 因 为 多 数 情况 下 都 不 会 用 到 菜 些 甚至 全 部 的 
oe ME tn res 
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副本 仍然 需要 成 本 。 而 这 是 必要 的 吗 ? 为 什么 不 能 直接 使 用 原来 的 文 
AN? 请 参考 : 

$Subject=~s/\(?:Re:\s * )+//; 

这 样 ，$& 下 确 地 引用 了 $Subject ”中 删除 的 文本 ， 但 因为 它 已 经 从 
$Subject “中 删除 ， 在 后 面 用 到 $& 时 ，Perl 不 能 从 $Subject 中 引用 这 段 文 
本 。 和 下面 的 代码 情况 相同 : 

if (3$Subject =~ m/*SPAM:(.+)/i) { 
SSubject = "-- spam subject removed --"; 
SSpamCount{$1}++; 

} 


引用 $1 时 ， 原 来 的 $Subject 已 经 删除 了 。 所 以 ，Penl 必 须 保 存 原 文 副 


原文 副本 并 非 时 时 必须 

在 实践 中 ， 原 文 副 本 的 主要 “用 户 ” 是 $1、$2、$3 之 类 的 变量 。 但 是 
如 果 正 则 表达 式 不 包含 捕 医 型 括 写 昵 ? 那 样 束 不 必 担 心 $1 之 类 了 ， 所 以 
完全 不 必 考 虑 如 何 支 持 它 们 。 所 以 至 少 ， 不 包含 捕获 型 括号 的 正则 表达 
式 可 以 不 必 保 存 找 由 ? ERER D. 

不 宜 使 用 的 变量 : ” 、$& 和 $ 

5 、$&、5$ 这 三 个 变量 与 捕获 型 括号 无 和 天 。 它 们 分 别 对 应 到 匹配 
文本 之 六 的 部 分 ， 匹 配 文 本 和 匹配 之 后 的 部 分 ， 其 实 可 以 应 用 于 每 一 次 
match 和 和 substitution。Perl 不 能 预先 知道 某 个 下 配 中 是 否 会 用 到 这 些 变 
量 ， 所 以 每 次 都 必须 保存 原文 副本 。 

听 起 来 ， 似 乎 没有 办 法 省 略 副 本 ， 但 是 Perl 足够 聪明 ， 它 能 够 认识 
到 ， 如 果 这 些 变 量 不 会 出 现在 程序 中 ， 融 根本 没 必 要 《甚至 在 任何 可 能 
用 到 的 library 之 中 ) 保存 副本 来 提供 支持 。 所 以 ， 如 果 没 有 用 到 捕获 型 


括号 ， 再 避免 出 现 、$& 和 就 能 省 略 原 文 副 本 一 这 是 很 棒 的 优化 ! 只 
要 在 程序 中 的 任何 一 处 用 到 了 $5" 、$& 和 ”三 者 之 一 ， 整 个 优化 即 告 失 
效 。 这 可 不 够 意思 ! 所 以 ， 我 认为 这 些 变 量 是 “不 宜 使 用 
(naughty) ”的 。 

原文 副本 的 代价 有 多 高 

我 进行 了 简单 的 性 能 测试 ， 对 Perl 源 代码 的 130 000 行 C 程 序 中 的 每 
一 行 检 查 m/o。 这 个 性 能 测试 仅仅 检测 哪 一 行 出 现 了 字符 把。 测试 的 目 
的 是 衡量 原文 副本 的 影响 。 我 用 两 种 方法 进行 测试 : 一 种 肯定 没有 用 到 
ee ees A Sees eee 
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况 ”， 这 样 说 是 因为 性 能 测试 并 疫 有 进行 什么 实质 性 的 操作 ， 人 否则 二 者 
之 闭 的 时 间 相 对 比例 会 减 小 〈 甚 至 显得 微不足道 ) 。 

另 一 方面 ， 在 真正 的 最 坏 情况 下 ， 额 外 副本 可 能 真 的 占据 非常 重要 
的 比重 。 我 对 同样 的 数据 运行 同样 的 程序 ， 但 是 这 次 将 所 有 超过 3.5MB 
的 数据 都 放 在 一 行 中 ， 而 不 是 长 度 合 适 的 130 ”000 行 。 这 样 就 能 比较 时 
次 匹配 的 相对 表现 。 不 使 用 原文 副本 的 匹配 几乎 是 立刻 束 得 到 了 结果 ， 
因为 第 一 个 ‘字符 离开 涉 不 远 ，[ 匹 配 之 后 程序 就 运行 结束 。 而 使 用 原文 
副本 的 程序 运行 原理 差不多 ， 只 是 它 会 首先 拷贝 整个 字符 串 。 它 所 用 的 
AU 
A3 TK 

避免 使 用 原文 副本 

如 果 Perl 能 够 领会 程序 员 的 意图 ， 只 在 需要 的 情况 下 保存 副本 ， 当 
然 很 好 。 但 请 记 住 ， 这 些 副 本 并 不 是 “败笔 一 一 Perl 在 化 后 处 理 这 些 繁 
琐事 务 是 我 们 选择 Perl， 而 不 是 C 或 者 汇编 语言 的 原因 。 事 实 上 ，Perl 最 
初 只 是 为 了 把 用 户 从 繁杂 有 的 机 制 中 解放 出 来 ， 这 样 他 们 只 需要 关注 问题 
的 解决 方案 束 好 了 了。 

永远 不 要 使 用 不 宜 使 用 的 变量 。 同 样 ， 尽 可 能 避免 额外 的 工作 也 
是 不 错 的 。 首 先 想到 的 就 是 ， 永 远 不 要 在 代码 中 使 用 全、$& 和 ”> 。 通 
常 ，$& 很 容易 消除 一 一 把 正则 表达 式 包 半 在 一 个 捕获 型 括号 内 ， 然 后 
使 用 $1 即 可 。 举 例 来 说 ， 把 HTML tag 转换 为 小 写 时 ， 不 使 用 s/<= 
\w+ 之 AL$&NAE/g， 而 使 用 (<\w+>) 和 L$1\E/g。 


如 果 保 和 存 了 原始 目标 字符 串 ， 束 可 以 很 容易 地 模拟 3 和 5 。 匹 配 东 
个 target 字 人 符 串 之 后 ， 可 以 按 下 和 面 的 规则 来 模拟 : 





变量 模拟 方式 

> substr (target, 0, $-[0]) 

$& | substr (target, $= [0], $+[0]-$-[0]) 
> substr (target, $+[0]) 


因为 @- 和 @+ (302) 保存 的 是 原始 目标 字符 串 中 的 位 置 ， 而 不 是 
确切 的 文本 ， 使 用 它们 不 需要 担心 效率 问题 。 

我 还 给 出 了 $& 的 模拟 。 相 对 使 用 捕获 型 括号 和 $1 的 办 法 ， 这 可 能 
是 一 个 更 好 的 办 法 ， 这 样 完 全 不 必 使 用 任何 捕获 型 括号 。 请 记 住 ， 避 人 免 
使 用 $&& 之 类 变量 的 目的 就 在 于 ， 如 果 表 达 式 中 没有 出 现 捕获 型 括号 ， 

要 避免 保存 原始 副本 。 如 果 修 改 程序 ， 去 反 $&， 和 再 对 每 个 匹配 都 增加 
捕获 型 插 号 ， 就 不 会 节省 任何 时 间 。 

不 要 使 用 不 宜 使 用 的 模块 。 当 然 ， 避 免 、$&、$' 也 意味 着 避免 
使 用 调用 它们 的 模块 。Perl 的 核心 模块 中 ， 除 English 之 外 都 没有 使 用 它 
们 。 如 果 你 希望 使 用 English 模 块 ， 可 以 这 样 : 

use English'-no_match_vars'; 

这 样 就 没有 问题 了 。 如 果 你 从 CPAN 或 者 其 他 地 方 下 载 了 模块 ， 你 
可 能 需要 检 奏 一 一 ， 看 看 它们 是 个 使 用 了 这 些 变 量 。 请 参考 下 一 页 的 补 
RAR, HMA hs, AVEO Al TRE ce BBB See ee 


如 何 检 查 代 码 是 否 包含 Ss 


判断 程序 是 否 使 用 了 不 宜 使 用 的 变量 S、$& 和 8$， 并 不 是 件 容 易 的 事情 ， 尤 其 使 用 库 函 
数 时 更 是 如 此 ， 但 还 是 有 几 个 办 法 来 判断 。 最 简单 的 是 ， 如 果 你 的 二 进 制程 序 在 编译 
时 指定 了 -DDEBUGGING 参数 ， 就 可 以 使 用 -c 和 -Mre=debug 参数 (7361), Mark 
的 结尾 ,找到 所 念 Enabling $', $&4e$' support 或 者 Omitting $',$é4e$’, support 
的 那 一 行 。 如 果 见 到 前 面 的 文字 ,就 表示 使 用 了 这 些 变 量 。 
另 一 种 可 能 BRAME) 的 情况 是 ,程序 在 eval 语句 中 使 用 了 这 些 变量 ， 如 果 没 
有 实际 运行 ，Perl 不 知道 的 是 否 使 用 了 这 些 变量 。 解 决 办 法 之 一 就 是 安装 CPAN 
(http//www.cpan.org) 的 Devel:Sawampersand Package; 
END { 
require Devel: :SawAmpersand; 
if (Devel: :SawAmpersand::sawampersand) { 
print "Naughty variable was used!\n"; 
| } 
5 Devel: :SawAmpersand 一 起 的 还 有 Devel::FindAmpersand, ix package 能 够 告 
RA PAPA ABR, REM, MHRA Perl, URMRRELS ER, 
这 两 个 package 的 安装 都 不 简单 ， 所 以 要 做 的 事 没准 很 多 (请 参考 http //regex.info/& 
找 可 能 的 更 新 )。 
用 查找 性 能 损失 的 办 法 找 出 问题 代码 的 办 法 也 值得 一 看 : 


use Time::HiRes; 
sub CheckNaughtiness () 
{ 
my $text = 'x' x 10 000; # 创建 一 定量 的 数据 


# 计算 纯 循 环 的 开销 

my $start = Time::HiRes::time(); 

for (my $i = 0; $1 < 5 000; $i++) {í } 

my Soverhead = Time::HiRes::time() - $start; 


# 计算 同样 次 数 匹 配 的 开销 

Sstart = Time::HiRes::time(); 

for (my $i = 0; $i < 5 000; $i++) { $text =~ m/*/ } 
my Sdelta = Time::HiRes::time() - $start; 


# 计算 差 什 


printf "It seems your code is s (overhead=%.2f, delta=%.2f)\n", 
($delta > Soverhead*5) ? "naughty" : "clean", Soverhead, Sdelta; 


Study rK% 


The Study Function 
与 优化 正则 表达 式 本 身 不 同 ，study C...) 优化 了 对 特定 字符 串 的 革 
些 检 索 。 一 个 字符 串 在 study 之 后 ， 应 用 到 它 的 《一 个 或 多 个 ) 正则 表 
达 式 可 以 从 缓存 的 分 析 数 据 中 受益 。 一 般 是 这 样 使 用 的 : 
while (<>) 
{ 
study ($R); # 匹配 之 前 Study 默认 的 目标 字符 囊 $_ 
if (m/regex 1/ 
:| 
if (m/regex 3/ 
LE { 


m/regex 2/ 


m/regex 4/ 
} 


study 的 作用 很 答 单 ， 但 是 理解 它 什么 情况 下 有 价值 却 不 丛 单 。 写 
不 会 影 啊 到 程序 的 任何 值 和 任何 结果 ， 唯 一 的 有 影响 就 是 ，Perl 会 使 用 更 
多 的 内 存 ， 总 的 执行 时 间 可 能 会 增加 ， 保 持 不 变 ， 或 者 减少 (这 是 我 们 
预期 的 ) 。 

study 一 个 字符 串 时 ， Perl 会 会 分 配 时 间 和 内 存 来 记录 字符 串 中 的 一 系 
列 位 置 (在 大 多 数 系统 中 ， 需要 的 内 存 是 字符 串 大 小 的 4 倍 ) 。 在 字符 
串 修 改 之 前 ， 针 对 此 字 符 串 的 每 次 匹配 都 可 以 从 中 受益 。 对 字符 串 的 任 
何 修改 都 会 导致 study 数 据 的 失效 ， 相 当 于 study 另 一 个 字符 串 。 

Study 能 给 日 标 字 符 串 提供 的 帮助 ， 很 大 程度 上 取决 于 用 来 区 配 的 
正则 表达 式 ， 以 及 Perl 能 够 使 用 的 优化 。 例 如 用 m/foo/ 检 索 文 本， 如果 
使 用 了 study， 速 度 会 提升 很 多 〈 如 果 字 人 符 串 更 长 ， 其 至 可 能 提高 10 000 
倍 〉。 但 是 ， 如 末 使 用 了 ii， 束 不 会 有 这 种 效果 ， 因 为 i 不 会 利用 study 
WE Ta (和 其 他 优化 ) 。 

不 应 该 使 用 study 的 情况 

e 如 果 只 使 用 i， 或 是 所 有 正则 文学 都 受 ' (3 D 或 CP ais ...) 
作用 ， 就 不 应 该 对 字符 串 使 用 study， 因 为 它们 不 有 从 study 中 受益 。 

e 如 末 目 标 字 人 符 串 很 短 ， 也 不 应 该 使 用 study。 因 为 此 时 ， 正 党 的 国 

定 字 符 串 识别 优化 ( 守 247) 已 经 足够 了 。 那 么 “ 短 ” 究 葛 如 何 界 定 呢 ? 

字符 串 的 长 度 没 有 确切 的 标准 ， 所 以 具体 来 说 ， 只 有 进行 性 能 测试 才能 
FAlltstudyze GA tm. PERNA, BS NE study, RSE SEE E 
WIS REN FKB.~ 


如 果 你 只 希望 在 修改 之 前 ， 或 是 study F] FF AB ZAI, 对 目标 
字符 串 进行 少数 几 次 下 配 ， 请 不 要 使 用 ”study。 如 果 要 获得 真正 的 性 能 
提升 ， 必 须 是 多 次 匹配 节省 下 来 的 时 间 长 于 study 的 时 间 。 如 果 匹 配 次 数 
较 少 ， 花 在 study 吴 上 的 时 间 抵 不 上 市 和 省 的 时 间 ， 得 不 偿 失 。 

只 对 期 望 使 用 包含 “独立 出 来 的 ”文字 (F255) 的 正则 表达 式 搜索 
的 字符 串 使 用 study。 如 有 果 不 知 道 匹配 中 必须 出 现 的 字符 ，study BRAS 
上 上 用场 (看 了 这 几 和 条， 也 许 你 会 认为 ，study 对 index 函 数 有 益 ， 但 事实 
并 非 如 此 ) 。 

什么 时 候 使 用 study 

最 适合 使 用 study 的 情况 束 是 ， 目 标 字 符 串 很 长 ， 在 修改 之 前 会 进 
行 许多 次 匹配 。 一 个 简单 的 例子 束 是 我 在 写作 本 书 时 所 用 的 过 小 右 。 我 
用 自己 的 标记 法 写 稳 ， 然 后 用 过 小 占 转 换 为 SGML 〈 再 转换 为 toff， 再 
转换 为 PostScript) 。 经 过 过 滤器 内 部 ， 一 整 章 变 为 一 个 大 字符 串 〈 例 
如 ， 本 章 的 大 小 为 475KB ) 。 在 退出 之 前 进行 多 项 检查 来 保证 不 会 漏 过 
错误 的 标记 。 这 些 检 奉 不 会 修改 字符 串 ， 它 们 通 第 奉 找 固定 长 度 的 字符 
串 ， 所 以 它们 很 适合 于 study。 


性 能 测试 


Benchmarking 
如 果 你 真 的 关心 效 京 ， 最 好 的 办 法 束 是 进行 性 能 测试 。Perl 目 市 的 
Benchmark 模 块 提供 了 详细 的 文档 ("perldoc Benchmark") 。 可 能 是 习 
WEA, REE MMA OFS EREMIA: 
use Time::HiRes'time’; 
我 把 希望 测试 的 内 容 简 单 包装 成 : 
my Sstart = time; 
my $delta = time - Sstart; 
printf "took %.1f seconds\n", Sdelta; 


PE BEWUVY E H AA MR EREMIE Se AYE, oe 
示 的 时 间 其 正 有 意义 ， 尽 可 能 多 地 测试 希望 的 部 分 ， 尽 可 能 少 地 测试 不 
布 望 的 部 分 。 在 第 6 章 有 详细 的 讲解 《至 232) 。 找 到 正确 的 测试 方法 
可 能 得 化 些 时 间 ， 但 是 结案 可 能 非 党 有 价值 ， 也 很 值得 。 


正则 表达 式 调试 信息 


Regex Debugging Information 


Per 提供 了 数量 众多 的 优化 措施 ， 期 望 能 够 尽 可 能 快 地 找到 匹配 ; 
第 6 草 的 “各 见 优化 措施 ”( 树 204) 介绍 了 基础 的 措施 ， 但 还 有 许多 其 他 
的 措施 。 大 多 数 优 化 只 能 应 用 于 专门 的 情况 ， 所 以 特定 正则 表达 式 只 能 
MEPA EREA) IRA o 

Perl 的 调试 模式 (debugging mode) 能 提供 优化 的 信息 。 在 正则 表 
达 式 第 一 侈 编 详 时 ，Perl 会 选择 这 个 正则 表达 式 所 使 用 的 优化 措施 ， 而 
调试 模式 会 显示 其 中 的 一 部 分 。 调 试 模 式 同 样 可 以 告诉 我 们 引擎 是 如 何 
应 用 表达 式 的 。 和 仔细 分 析 这 些 调 试 信息 不 属于 本 书 的 范围 ， 但 我 会 在 这 
里 给 出 简要 介绍 。 

在 程序 中 可 以 通过 use ”re'debug'; 来 显示 调试 信息 ， 用 no 
re'debug'; 来 关闭 (上 文 曾 出 现 过 编译 指示 use re， 根 据 不 同 的 参数 ， 局 
用 或 茜 用 插值 变量 中 的 内 髓 代码 二 337) 。 

如 果 锅 望 在 整个 脚本 中 启用 此 功能 ， 可 以 使 用 命令 行 参数 - 
Mre=debug。 这 很 适合 检查 单个 的 正则 表达 式 的 编译 方法 。 下 面 是 一 个 
例子 (只 保留 了 相关 的 行 ): 

0 % perl -cw -Mre=debug -e 'm/*Subject: (.*)/' 

e Compiling REx '“Subject: (.*)' 

+ rarest char j at 3 

$ Le BOLTZ) 

= 2: EXACT <Subject: >(6) 


~ 12: ENDIO) 
. anchored 'Subject: ' at 0 (checking anchored) anchored(BOL) minlen 


| Omitting S! Se S* support, 


在 6 处 从 shell 提 示 符 局 动 perl， 使 用 命令 行 参数 -c〈 意 思 十 检查 脚 
本 ， 而 不 是 确切 执行 它 ) ，-w MRP REFA SE, MWER hZ 
报 ) ， 以 及 -Mre=debug 局 用 调试 。-e 表 示 下 面 的 参数 "rm/ASubject: + C. 
x) /是 一 段 Perl 代 人 码 ， 震 要 运行 或 者 检查 。 

+: 行 报告 表达 式 国定 长 度 的 字符 串 中 “出 现 频率 最 低 ” 的 字 从 (由 
Perl 猜测 ) 。Perl 根据 这 一 点 进行 菜 些 优化 (例如 预 查 所 需 字 从 / 子 串 守 
DAS) .6 

第 到 s 行 表示 Pen 编译 好 的 正则 表达 陈 。 因 为 扁 幅 的 原因 ， 我 们 在 
这 里 不 会 花 太 多 的 工夫 。 不 过 ， 即 使 是 随便 看 看 ， 第 =s 行 也 不 难 理解 。 

第 ... 行 对 应 大 多 数 行为 。 可 能 显示 的 信息 包括 : 


Anchored'string'at offset 

它 表 示 匹 配 必 须 包 售 茶 个 字符 串 ， 此 字符 串 在 匹配 中 的 偶 移 信 为 
offset. WWRGPAIRE'String'’Z Ja, AbAstringse VLA WIC 

floating'string'at from..to 

TE ARAN VL AC VE SET EE EB EC SRR AB EL HP eb PM 
from (F4) Fto GER) 中 的 任意 位 置 。 如 果 $ 紧 跟 在 'String' 之 后 ， 
string VL AC Zh EIU « 

stclass'list' 

它 表 示 匹 配 可 能 的 开始 字符 。 

anchored(MBOL),anchored(BOL),anchored(SBOL) 

说 明 表 达 陈 以 和 开头。MBOL 说 明 使 用 了 /mm 修饰 符 ，BOL 和 SBOL 
表示 没有 使 用 〈BOL 和 SBOL 的 区 列 在 现代 Pen 中 没有 意义 。SBOL 与 
$x 变量 有 关 ， 而 此 变量 已 被 废弃 了 ) 。 


anchored(GPOS) 
说 明正 则 表达 式 以 \G 开头 。 
implicit 


说 明 anchored (MBOL) 是 由 Perl 隧 式 洪 加 的 ， 因 为 正则 表达 式 以 .. 
类， 开头。minlen length 

代表 匹配 成 功 的 最 小 长 度 。 

with eval 

说 明 表 达 式 包含 ' (? {...}) 或 是 ' (? ? {...}) o 

第 | 行 与 正则 表达 陈 无 和 天 ， 只 有 当 二 进 制 代码 中 的 编 详 司 用 了 - 
DDEBUGGING 时 才 会 出 现 。 如 果 局 用 ， 在 载 入 整个 程序 之 后 ，Perl 会 
报告 是 否 司 用 了 对 $&& 等 变量 的 文 持 C356) 。 

运行 时 调试 信息 

我 们 知 媳 如 何 利 用 内 骸 代 码 获 得 匹配 的 运行 信息 ( 守 331) ， 但 是 
Perl 的 正则 表达 式 调 试 可 以 提供 更 多 的 信息 。 如 果 去 挥 表示 “ 仪 编 译 ” 的 - 
cW, Perl 会 提供 更 多 关于 匹配 运行 细节 的 信息 。 

出 现 “Match rejected by optimizer，” 表 示 菏 种 优化 措施 让 传动 装置 认 
识 到 ， 这 个 正则 表达 式 水 远 无 法 在 目标 字符 串 中 匹配 ， 所 以 会 急 略 任何 
笑 试 ， 下 面 是 一 个 例子 : 


% perl -w -Mre=debug -e '"this is a test" =~ m/*Subject:/;' 


Did not find anchored substr 'Subject:'? 
Match rejected by optimizer 


如 朵 司 用 了 调试 功能 ， 用 户 可 以 看 到 所 有 用 到 的 正则 表达 式 的 调试 

信息 ， 而 不 只 限于 用 户 提 供 的 正则 表达 式 。 例 如 : 
% perl -w -Mre=debug -e 'use warnings' 
. KERALA... 

它 疫 有 进行 任何 操作 ， 只 是 装载 了 warningttit, (AR Aix Stk 
块 包含 正则 表达 式 ， 我 们 仍然 会 见 到 许多 调试 信息 。 

显示 调试 信息 的 其 他 办 法 

我 已 经 提 到 ， 可 以 使 用 “use re'debug'; ”或 -Mre=debug 来 启用 正则 表 
达 式 的 调试 。 不 过 ， 如 果 把 所 有 的 _ debug 替换 为 debugcolor， 而 终端 又 
支持 ANSI 转 义 控制 字符 (ANSI terminal control escape sequences) ， 输 
出 的 信息 融会 以 高 腕 标 记 ， 更 容易 阅读 。 

HAINA; WR Perl 二 进 制 代码 在 编译 时 局 用 了 调试 文 持 ， 可 
以 使 用 命令 行 参 数 -Dr 来 表示 -Mre=debug。 


七、 五 
ae ta 


Final Comments 

我 确信 和 目 己 已 经 陶醉 于 Perl WIE eqs, AEP RRS He 
到 ， 这 是 有 充分 理由 的 。Perl 之 父 Larry Wall， 完 全 是 按照 常识 和 发 明 的 
动力 (Mother of Invention〉 来 做 的 。 是 的 ，Perl 的 正则 表达 式 实 现 也 有 
日 己 的 问题 ， 但 是 我 仍然 愿意 醉心 于 Perl 下 则 语言 丰富 的 功能 ， 及 其 与 
Perl 其 他 部 分 的 融合 。 

当然 ， 我 热情 而 不 盲目 Perl 并 没有 提供 某 些 我 希望 的 特性 。 本 
FB Li Hay eB ORE LASSI, ERS RR PE Bk, pA 
Perl SAEN. AAMT SASH, Perl 最 急需 提供 的 功能 是 命名 捕获 
(138) 。 本 章 给 出 了 模拟 的 办 法 ， 但 还 存在 硅 干 限制 。 提 供 内 建文 
持 是 最 好 的 解决 办 法 。 如 果 能 提供 字符 组 集合 运算 C125) 也 很 好 ， 
虽然 目前 可 以 费 点 周折 用 顺序 环视 来 模拟 C126) 。 

然后 是 占有 优先 量词 (5142) 。Perl 的 固化 分 组 提供 了 更 多 的 完整 
功能 ， 但 是 在 某 些 情况 下 占有 优先 量词 的 解法 更 清楚 更 美观 。 所 以 ， 两 
种 办 法 我 都 喜欢 。 事 实 上， 还 有 两 个 我 喜欢 两 个 相关 结构 ， 目 前 还 没有 
任何 流派 提供 。 其 中 之 一 是 “cut” 操 作 ， 或 者 叫 \v ， 它 会 并 刻 清除 当前 
存在 的 所 有 保存 状态 (这 样 ，'x+t\v 就 等 于 'x++ 或 者 ' (? >x) )， 
为 一 个 结构 用 来 禁止 传动 装置 的 任何 进一步 的 操作 。 它 的 意思 是 “要 人 入 
在 当前 路 径 找 到 一 个 匹配 ， 要 么 束 不 容许 任何 匹配 ， 没 有 其 他 可 
He. "Al AEA \V 来 表示 比较 好 。 

还 有 个 与 \V 有 关 的 想法 ， 我 认为 在 传动 朔 置 中 添加 通用 的 钩子 功 
能 〈general hooks) 是 有 用 的 ， 这 样 第 335 页 的 程序 束 可 以 大 大 化 人 简 。 

最 后 要 说 的 是 ， 我 在 第 337 页 曾经 捉 到 ， 在 内 舰 代码 插值 到 正则 表 
达 式 时 ， 提 供 更 多 的 控制 是 非常 有 用 的 。 

Perl 当 然 不 是 理想 的 正则 表达 式 语 言 ， 但 它 很 接近 这 个 目标 ， 而 且 
一 直 在 进步 。 





#8 Java 


Java 


自 2002 年 早期 发 布 的 Java 1.4.0 以 后 ，Java 就 内 建 了 正则 表达 式 包 ， 
java.utilregex， 它 的 API 坚 不 复杂 《可 以 称 得 上 人 徐 单 ) ， 提 供 了 强大 而 
有 创意 的 功能 。 对 Unicode 的 文 持 很 棒 ， 文 档 很 清晰 ， 运 行 速度 也 很 
快 。 它 能 够 用 来 匹配 CharSequence 对 象 ， 所 以 使 用 起 来 非常 方便 。 

sjava.utilLregex—22 270 wLZa A Pa E VRAIEVR. ENN DIRE. REPEAL 
EEAS BI SAE TAZ, JOR EXTRACT PR, EEO 
wee Java ” 1.4 的 最 终 版 本 是 1.4.2。 写 作 本 书 时 ，Java 1.5.0 (th "Java 
5.0) 已 经 发 布 ， 而 Java 1.6.0〈 也 叫 Java 6.0) 已 经 发 布 了 第 二 个 beta 版 
本 。 本 书 针对 的 是 Java 1.5.0， 不 过 我 会 在 合适 的 时 候 提 到 它 与 Java 1.4.2 
或 Java 1.6.0 之 间 的 重要 差异 KEARNS EAR RIES 401) CE 
1) 。 

ZA HN EKA 

在 疯 谈 本 章 之 前 ， 我 必须 说 明 ， 这 一 章 不 会 重复 第 1 章 到 第 6 AN 
绍 的 所 有 知识 。 有 些 只 关心 Java 的 读者 可 能 会 直接 从 这 章 开 始 阅 读 ， 我 
布 望 他 们 不 要 错过 前 言 和 开头 几 间 的 内 容 : 第 1、2、3 ENA S EK 
达 式 的 基本 概念 、 特 性 和 技巧 ， 第 4、5、6 章 包 含 了 理解 正则 表达 式 的 
关键 知识 ， 它 们 可 以 直接 应 用 到 java.util.regex 中 。 开 头 几 章 讲 解 的 重要 
概念 包括 NEA 引 擎 的 工作 原理 、 匹 配 优先 性 、 回 湖 和 效率 。 

表 8-1: 方法 名 索引 《〈 按 字母 、 页 码 排序 ) 





380 
381 
312 
377 
375 
394 
377 
371 
388 
387 
390 
376 


appendReplacement 
appendTail 
compile 

end 

find 

flags 

group 

groupCount 


hasAnchoringBounds 


hasTransparentBounds 


hitEnd 
lookingAt 


EIERNE, IS 


matcher 

matcher (Matcher) 
matcher (Pattern) 
pattern (Matcher) 
pattern (Pattern) 
quote 


QuoteReplacement 


region 


regionEnd 
regionStart 


replaceAll 





replaceAllRegion 


replaceFirst 
reguireEnd 

reset 

BDL1t 

start 

text 
toMatcheResult 
toString (Matcher) 
toString (Pattern) 
useAnchoringBounds 
usePattern 


useTransparentBounds 


这 张 表格 供 人 简要 但 询 ， 详 细 的 API 讲 解 从 第 371 页 开始 。 
党 第 367 页 的 表格 碍 哆 起 来 很 方便 ， 第 3 章 


第 114 和 第 123 页 的 表格 也 是 如 此 ， 但 本 书 的 目的 不 是 作为 参考 手册 ， 而 
是 “掌握 ”正则 表达 式 的 评 细 教程 。 有 前 面 几 间 已 经 出 现 过 java.util.regex 的 
例子 (81, 95, 98. 217, 235) ， 本 章 在 讲解 各 种 类 及 其 实际 应 用 时 
会 给 出 更 多 的 例子 。 不 过 ， 首 先 还 是 来 看 Java 支 持 的 正则 流派 ， 以 及 对 
应 的 修饰 符 。 


Java} 1E M| RYK 


Java's Regex Flavor 

java.util.regex 使 用 传统 型 NFA， 所 以 第 4、5、6 章 介绍 的 丰富 特性 
都 适用 于 它 。 下 页 的 表 8-2 尽 结 了 它 的 元 字 生 。 此 注 派 的 某 些 方面 已 经 
及 生 了 了 变化， 原因 是 各 种 匹配 模式 ， 匹 配 模 陈 的 局 用 通过 各 种 ”method 
和 factory 来 设 定 标志 位 ， 或 者 内 瞬 在 表达 式 中 的 | C? mods-mods) ， 
fil’ (2 mods-mods: ...) 修饰 符 。 这 些 模式 在 第 368 页 的 表 8-3 中 有 列 
出 。 下 面 是 对 表 8-2 的 说 明 : 

QD 只 有 在 字符 组 内 部 ，b 才 代表 退 格 字符 。 在 其 他 场合 ，\b 都 代表 
单词 分 界 符 。 

表 中 给 出 的 是 “ 纯 〈raw) ” 反 斜 线 ， 但 是 用 作 Java 正 则 表达 式 的 字符 
串 时 必须 使 用 双 反 斜 线 。 例 如 ， 表 中 的 Am 在 Java 的 字符 串 中 必须 写 
作 “\n”。 请 参考 “作为 正则 表达 式 的 字符 串 ”( 寺 101) 。 

KH # 容 许 且 只 容许 出 现 两 位 十 六 进 制 数 字 ， 所 以 \xFCber JL 
Ac über’. 

#28-2: java.util.regex 的 正则 流派 


字符 缩 略 表示 法 


115 (c) | \a [\b] \e \£ \n \r \t \Ooctal \x## \ut Ht \echar 
字符 组 及 相关 结构 
118 (c) 字符 组 ，[…] [A] (可 包 念 集合 运算 符 125) 
F119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 
他 120 (c) 字符 组 缩 略 表示 法 ": \w \d \s \W \D \S 
#121 (c) Unicode 属性 和 区 块 ，\p{Prop} \P{Prop} 
锚 点 及 其 他 震 长 度 断 言 
F370 行 /字符 串 起 始 位 置 ; ^ A 
370 行 /字符 串 结束 位 置 : $ \z \2 
370 当前 匹配 的 起 始 位 置 : \G 
$133 单词 分 界 符 : \b \B 
F133 环视 结构 ": (Parr) (21e) (?<=…) (21) 
注释 及 模式 修饰 符 
F 135 模式 修饰 符 ，(?mods-mods) 容许 出 现 的 模式 : xdsmiu 
135 模式 修饰 范围 ，(?mods-mods:…:) 
T368 (c) 注释 : AETA (只 在 启用 时 有 效 ) ” 
F113 (c) 文字 文本 模式 ，\O…\E 
分 组 及 捕获 
F137 MRE: (…) ML \2… 
F137 仅 分 组 的 括号 ; (?:…) 
139 固化 分 组 : (?>…) 
F139 多 选 结构 : | 
F141 匹配 优先 量词 : * +? {n} {n,} {x,y} 
14] ARASH: *? +? 22 {n}? {n,}? {x,y}? 
| SARAH: t+ ++ ?+ {n}+ {n,}+ {x,y}+ 








可 用 于 学 符 组 内 部 O OLKA 


UHHH HAVA RAY Mie TEANA PG, Au00FCber JL 
fid‘tiber’, ‘\u20AC Me. 


\Ooctal 要 求 开头 为 0， 后 接 1 到 3 位 十 进 制 数字 。 
cchar 是 区 分 大 小 写 的 ， 直 接 对 后 面 字 符 的 十 进 制 编码 进行 异 或 
(xoring) 操作 。 与 我 见 过 的 任何 流派 都 不 一 样 ， 在 这 里 \cA 和 \ca 是 不 

同 的 。\cA 等 于 传统 意义 上 的 六 01，\ca 则 等 价 于 \x21， 匹 配 ‘! ，。 

CNw、\d 和 \s《〈 以 及 对 应 的 大 写 缩 略 法 ) 只 适用 于 ASCII 字 符 ， 而 不 
包括 其 他 的 字母 、 数 字 或 者 Unicode 空白 字符 。 也 就 是 说 ，\d 等 价 于 [0- 
9], \w 等 价 于 [0-9a-zA-Z]，\s 等 价 于 [AtenxNNx0OB] (x0B 是 ASCII 中 基本 
不 用 的 VT 字符 ) 。 

要 和 窗 盖 完整 的 Unicode 字 从， 可 以 使 用 Unicode 属 性 (121) : 用 
\p 代 } 表 示 \w，\p{Nd} 表 示 \d， 用 \p{Z} 表 示 \s。 (把 小 写 的 p 蔡 换 为 大 写 
的 P， 束 可 以 对 应 WW、\D 和 \S) 。 

G)p{...} 和 \P{...} 文 持 Unicode 属性 和 区 块 ， 以 及 某 些 额外 的 “Java 
属性 ”。 它 不 支持 Unicode 字 母 表 。 详 细 信 息 在 下 一 页 。 

由 对 单词 分 界 符 元 字符 \b 和 \B 来 说 , “单词 字符 ”的 规定 不 同 于 \w 和 
\W。 单 词 分 界 符 能 够 识别 Unicode 字 符 ， 而 \w 和 \W 只 能 识别 ASCII 字 
符 。 

6) ”顺序 环视 结构 中 可 以 使 用 任意 正则 表达 式 ， 但 是 逆序 环视 中 的 
子 表 达 式 只 能 匹配 长 度 

有 限 的 文本 。 也 束 古 说 ，'? 可 以 出 现在 逆序 环视 中 ,但 ‘类 A+ 
则 不 行 。 请 参考 第 3 章 133 页 开始 的 内 容 。 

© ”只 有 在 使 用 /x 修饰 从 ， 或 者 使 用 Pattern.COMMENTS 选 项 ( 寺 
368) (请 不 要 和 态 记 在 多 

行文 本 字符 串 中 添加 换行 符 ， 如 第 401 页 的 例子 ) 时 ，#... 量 才 算 
注释 。 设 有 转 义 的 ASCII 字 空白 字符 会 被 忽略 。 注 意 : 这 一 点 与 大 多 数 
支持 此 模式 的 正则 引擎 不 同 ， 在 Java 中 字符 组 内 部 的 注释 和 空白 字符 

CNQ..E 一 直 是 被 支持 的 ， 但 在 Java 1.6 之前， 字符 组 内 部 的 此 种 
结构 是 不 可 靠 的 。 


表 8-3: java.util.regex 中 Match 和 Regex 的 方法 


Ama mi 


Patern. UNIX LINES me 更 改 点 号 和 | 的 匹配 — 
Pattern. DOTALL ls 总 号 能 匹配 任何 字符 (7111) 
Pattern.MULTILINE ” 扩展 “^| 和 '$| 的 匹配 规定 sr 


Pattern. COMMENTS — a (在 字符 组 内 部 也 有 效 ) 
| 


Pattern.CASE INSENSITIVE 对 ASCII 字符 进行 不 区 分 大 小 写 的 匹配 
Pattern.UNICODE CASE _ 对 Unicode 字符 进行 不 区 分 大 小 写 的 匹配 
Unicode 按 规则 等 价 (canonical equivalence) ” 


Pattern.CANNON EQ 匹配 模式 (不 同 编码 中 的 同样 字符 视 为 相等 
108) 


Pattern. LITERAL | [Hrg 参数 作为 文字 文本 ， 而 非 正则 表达 式 


Java 对 \p{...} 和 \P{...} 的 文 持 


Java Support for\p{ }and\P{ } 

[pf 和 人"\P{...} 结构 支持 Unicode 的 属性 和 区 块 ， 也 支持 特殊 
的 “Java” 字 从属 性。 这 种 支持 针对 Unicode Version 4.0.0 (Java 1.4.2 只 文 
持 Unicode Version 3.0.0) 。 

Unicode 属 性 

Unicode 属 性 是 通过 \p{Lu} 之 类 的 缩写 名 字 来 引用 的 “参加 122 页 的 
列表 ) 。 单 字母 属性 名 可 以 省 略 括 喜 ，YEL 等 价 于 Yp{L}。 而 
\p{Lowercase_Letter} 之 类 的 长 名 称 是 不 支持 有 的 。Java ”1.5 及 之 前 的 版 本 
是 不 文 持 Pi 和 Pf 属性 的 ， 因 此 ， 上 其 有 这 种 属性 的 字符 不 能 用 \p{P} 来 匹配 

(Java 1.6 支 持 ) 。 

“未 赋值 的 代码 点 ”属性 \p{Cn}y 匹 配 的 字符 ， 不 能 由 “其 他 字符 ”属性 
\p{C} 来 匹配 。Java 不 支持 组 合 属性 \p{L&}。 

Java 文 持 盆 属性 \p{all}， 它 等 价 于 '(? S: D) ， 但 不 文 持 
\p{assigned} 和 \p{unassigned} 伪 属性 ， 不 过 我 们 可 以 用 \P{Cn} 和 \p{Cn} 
KE 

Unicode |X Et 

Unicode block 的 文 持 要 求 使 用 "六 缀 。 请 翻 到 第 402 页 否 疯 有 具体 的 
版 本 信息 ， 了 解 \p{...} 和 AP{. 中 能 够 出 现 的 区 块 名 称 。 

AS teeta HRAE, Java 1.5 中 有 两 个 Unicode 区 块 在 Unicode 
Version 3.0 和 4.0 之 间 发 生 了 变化 。 除 了 Unicode ”4.0 提供 的 Combining 
Diacritical Marks for Symbols 和 Greek and Coptic 之 外 ， 还 可 以 使 用 本 
不 属于 Unicode 4.0 的 名 称 Combining Marks for Symbols 和 Greek。 

Java 1.4.2 有 个 涉及 Arabic Presentation Forms-B 和 Latin Extended- 
B 的 bug， 在 Java 1.5 中 己 经 修正 。 

特殊 的 Java 字 从 属性 

从 Java 1.5.0 开始 ，\p{...} 和 \P{...} 结 构 能 够 支持 java.lang.Character 
中 未 弃 用 (non-deprecated) 的 isSomething 方 法 。 为 了 在 正则 表达 式 中 使 
用 此 功能 ， 请 把 方法 名 开头 的 is' 符 换 成 java"， 然 后 使 用 \p{.…} 和 


\P{...} 。 例 如 ， 由 javalang.Characer. Yaaloent Frerstart 匹配 的 
字符 也 能 用 正则 表达 式 \p{javaJavaIdentifierStart} 来 匹配 〈 请 参考 
java.lang.Character 奖 的 文档 ) 。 





Unicode 行 终结 从 


Unicode Line Terminators 

在 Unicode 之 前 的 传统 正则 流派 中 ， 点 写 、^、$ 和 \Z 会 对 换行 从 
(ASCII 中 的 LE 字符 ) 进行 特殊 处 理 。 在 Java 中 ， 大 多 数 Unicode 行 终结 
FF C109) 也 会 这 样 特 殊 处 理 。 

正 间 情况 下 ，Java 会 把 下 面 的 这 些 字 符 当 作 行 终结 符 : 


字符 代码 名 称 说 明 

U+000A LF \n | ASCII 换行 和 (“newline”) 

U+000D ASCII @ 

U+000D U+000A ASCII 回 车 /换行 序列 

U+0085 NEL Unicode NEXT LINE (Unicode 换行 符 ) 

U+2028 LS | Unicode LINE SEPERATOR (Unicode 行 分 隔 符 ) 


U+2029 PS Unicode PARAGRAPH SEPARATOR (Unicode 段 分 隔 符 ) 


根据 匹配 模式 C368) 的 不 同 ， 点 号 、A、$ 和 \Z 会 对 这 些 符 号 进 
行 特殊 处 理 : 


匹配 模式 说 明 


UNIX LINE 恢复 到 传统 模式 ， 只 把 换行 符 作 为 一 行 的 终结 
MULTILINE 字符 串 中 的 行 终结 符 也 可 以 由 ^ 和 $ 匹 配 
DOTALL |. | 行 终结 符 不 再 另行 处 理 ， 点 号 可 以 匹配 所 有 字符 


作为 行 终结 标志 的 双 字 符 CR/LEF 值 得 一 提 。 默 认 情 况 〈 没 有 使 用 
UNIX_LINES 时 ) 是 识别 完整 的 行 终结 符 ， 匹 配 文 本 行 边 界 的 元 字符 会 
把 CR/LF 视 为 不 可 分 隔 的 单位 ， 一 次 性 匹配 这 两 个 字符 。 

举例 来 说 ，$ 和 \Z 通常 会 匹配 行 终结 符 之 前 的 位 置 。LF 是 行 终结 
符 ， 但 只 有 在 它 不 属于 CR/LF (也 就 是 说 ，LF 之 前 没有 CR) 的 情况 
下 ，$ 和 \Z 才 能 匹配 字符 串 末 尾 的 LF 之 前 的 位 置 。 

MUTILINE 模 式 中 的 $ 和 人 ^ 也 是 如 些 ， 在 这 种 模式 下 ， 只 有 在 CR 之 后 
没有 LE 的 情况 下 ，^ 才 能 匹配 CR 之 后 的 位 置 ， 只 有 在 LE 之 前 不 是 CR 的 
情况 下 ，$ 才 能 匹配 LE 之 前 的 位 置 。 

必须 说 清楚 的 是 ，DOTALL 对 CR/LF 的 人 处理 没有 影响 (DOTALL 只 


we Ufa] A E, has 


Rl 而 点 写 总 是 逐个 处 理 字符 的 ) ，UNIX_LINES 根 本 不 存在 此 
类 问题 〈 它 只 识别 CR， 


所 有 其 他 行 终结 符 都 不 需要 特殊 处 理 ) 。 


使 用 java.util.regex 


Using java.util.regex 
通过 java.util.regex 使 用 正则 表达 式 非常 简单 ， 功 能 由 两 个 类 ， 一 
个 接口 和 一 个 unchecked exception 组 成 。 
Java.util.regex.Pattern 
Java.util.regex.Matcher 


java.util.regex.MatchResult 
java.util.regex.PatternSyntaxException 


束 我 个 人 来 说 ， 更 喜欢 简称 前 两 个 为 “pattern” 和 “matcher”， 许 多 时 
做 我 们 只 会 用 到 这 两 个 类 。 人 简单 地 说 ，Pattern 对 象 束 是 编译 好 的 正则 表 
达 式 ， 可 以 应 用 于 任意 多 个 字符 串 ，Matcher 对 象 则 对 应 单独 的 实例 ， 
表示 将 正则 表达 式 应 用 到 某 个 具体 的 目标 字符 串 上 。 

Java 1.5 新 提供 的 MatchResult， 它 封 痛 了 成功 匹 配 的 数据 。 匹 配 数 
据 可 以 在 下 一 次 逻 配 尝试 之 前 从 Matcher 本 号 获得 ， 也 可 以 提取 出 来 作 
为 MatchResult 保 存 。 

OO FR VG Ac SS A SEA AY TE WU eA SA SUAS IE Alun, Loops], 的 
THA REA IE AA,» LS HUH PatternSyntaxException mps e T 
unchecked exception, 4k7« A java.lang.IllegalAgumentException。 

Bie TSC. EWR ET, aye S f FLA DOA: 
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String myText = "this is my lst test string"; 

String myRegex = "\\d+\\wt"; // 表示 \d+NW+ 

java.util.regex.Pattern p = java.util.regex.Pattern.compile (myRegex) ; 
jJava.util.regex.Matcher m = p.matcher(myText) ; 


if (m.find()) { 
String matchedText = m.group(); 
int matchedFrom = m.start(); 
int matchedTo = m.end(); 
system.out.printin ("matched [" + matchedText + "] "+ 
"from " + matchedFrom + 
“to " + mateneaTo F ".")5 
} else { 
system.out.println("didn't match"); 
} 


结果 是 ‘matched [1st] from 12 to 15.:。 在 本 章 的 所 有 例子 中 ， 我 都 用 
矢 体 表示 变量 名 。 如 果 这 样 声明 ， 可 以 省 略 粗 体 部 分 : 

import java.util.regex. x ; 

它 应 该 放 在 程序 的 头 部 ， 和 第 3 章 的 例子 〈 权 95) 一 样 。 

这 是 标准 的 做 法 ， 而 且 程序 更 容易 管理 。 本 章 的 其 他 程序 省 略 了 
importi fj. 

java.util.regex 使 用 的 对 和 象 模型 与 其 他 大 多 数 语言 个 同 。 请 注意 ， 前 
面 例子 中 的 Matcher 对 象 m， 和 是 通过 把 Pattern 对 象 和 目标 字符 串联 系 起 来 
得 到 的 ， 它 用 来 进行 实际 的 匹配 笑 试 (使 用 find 方 法 ) ， 以 及 得 询 结果 

(使 用 group、start 和 和 end 方法) 。 
这 办 法 初 看 起 来 可 能 有 点 上 古怪， 但 你 很 快 束 能 适应 了 了 。 


The Pattern.compile() Factory 


ThePattern.compile() Factory 
正则 表达 式 的 Pattern 对 象 是 通过 Pattern.compile 生 成 的 。 第 一 个 参数 
是 代表 正则 表达 式 的 字符 串 C101) 。368 页 表格 8-3 中 的 选项 可 以 作 
为 第 二 个 参数 。 和 下面 的 代码 从 字符 串 myRegex 生 成 一 个 pattern， 进 行 不 
区 分 大 小 写 的 匹配 : 
Pattern pat = Pattern.compile(myRegex, 
Pattern.CASE INSENSITIVE | Pattern.UNICODE CASE); 


预定 义 的 pattern 常量 用 来 指定 编译 选项 (例如 
Pattern.CASE_INSENSITIVE) , XP peA RAT GED ， 所 以 我 会 使 
用 正则 表达 式 内 部 的 模式 修饰 符 C7110) 。 包 括 378 页 的 " 0? x) , 
399 页 的 ”7 s) ABS (C2? D je 

Ai, WUE Ca BEARS, (ARATE Cunwieldy) ”能 够 降 
RIF bel EAS ERE. MRA UTA SEER Hl, RATE We Pe 8 
384 页 的 Pattern.compile 的 第 二 个 参数 : 

Pattern. UNIX_LINES|Pattern.CASE_ INSENSITIVE 

i Ay 2 FE IE WY RIA SIP AEA BA ZEN! (? id) 。 

从 名 字 可 以 看 出 ， 这 一 步 把 正则 表达 式 解 析 并 编译 为 内 部 形式 。 第 
6 半 对 此 有 详细 讲解 “ 寺 241〉， 们 单 地 说 ， 在 字符 串 内 应 用 表达 式 的 
整个 过 程 中 ， 编 译 pattern 通常 是 了 最 耗 时 间 的 。 所 以 要 把 编译 独立 出 来 ， 
作为 第 一 步 一 一 这 样 整 可 以 先期 将 正则 表达 式 编译 好 ， 和 章 复 使 用 。 

当然 ， 如 采 正 则 表达 式 编译 之 后 只 需要 使 用 一 次 ， 编 译 时 机 吏 不 是 
个 问题 ， 但 如 果 和 需要 多 次 应 用 【例如 应 用 到 读 入 文件 的 每 一 行 )， 预 编 
译 Pattern 对 和 象 就 很 有 价值。 

调用 Patern.compile 可 能 抛 出 两 种 类 型 的 寞 第 如 果 正 则 表达 式 不 合 
规则 ， 抛 出 Pattern-SyntaxException， 选 项 不 合 规则 ， 抛 出 
IllegalArgumentException- 





Pattern 的 matcher 方 法 


Pattern's matchermethod 
下 一 节 C394) 我 们 会 看 到 ，Pattern 提 供 了 某 些 简便 的 方法 ， 但 
是 大 多 数 情 况 下 ， 我 们 只 需要 一 个 方法 完成 所 有 工作 : matcher。 它 接 


受 一 个 参数 : 需要 检索 的 字符 串 《〈 注 3) 。 此 时 并 没有 确切 应 用 这 个 正 
则 表达 式 ， 而 只 是 为 将 ”pattern 应 用 到 特定 的 字符 串 做 准备 。matcher 方 
法 返回 一 个 Matcher 对 象 。 


Matcher 对 和 象 


The Matcher Object 

把 正则 表达 式 和 目标 字符 串联 系 起 来 ， 生 成 Matcher 对 象 之 后 ， 融 
可 以 以 多 种 方式 将 其 应 用 到 目标 字符 串 中 ， 并 查询 应 用 的 结果 。 例 如 ， 
对 于 给 定 的 Matcher 对 象 m， 我 们 可 以 用 m.find ©) 来 把 mm 的 表达 式 应 用 
到 目标 字符 串 中 ， 返 回 一 个 Boolean 值 ， 表 示 是 人 否 能 找到 匹配 。 如 果 能 
找到 ，m.group O 返回 实际 匹配 的 字符 串 。 

在 讲解 Matcher 的 各 种 方法 之 前 ， 不 妨 先 了 解 了 解 它 保存 的 各 种 信 
轧 。 为 了 方便 阅读 ， 下 面 的 清单 都 提供 了 对 应 的 详细 讲解 部 分 的 页 但 。 
第 一 张 清单 中 的 元 素 是 程序 员 能 够 设置 和 更 改 的 ， 而 第 二 张 清单 中 的 元 
RIER EM. 

程序 员 能 够 设置 和 修改 的 是 : 

ePattern 对象 ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通过 
UsePattern () 方法 更 改 (5393) 。 当 前 所 用 的 Pattern 可 以 用 
pattern O 方法 获得 。 

e 日 标 字 符 串 (或 其 他 CharSequence 对 象 ) ， 由 程序 员 在 创建 
Matcher 时 指定 。 可 以 通过 reset (text) 方法 更 改 (5392) 。 

e 日 标 字 符 串 的 “检索 范围 (region) ” C5394) 。 默 认 情 况 下 ， 检 
系 苑 围 吏 是 整个 目标 字符 串 ， 但 是 程序 员 可 以 通过 region 方法 ， 将 其 修 
改 为 目标 字符 串 的 某 一 段 。 这 样 菜 些 〈 而 不 是 全 部 ) 匹配 操作 融 只 能 在 
某 个 区 域内 进行 。 

当前 检索 沁 围 的 起 始 和 结束 仿 移 值 可 以 通过 regionStart 和 
regionEnd 方法 获得 (386) . reset (392) 会 把 检索 范围 重新 
设置 为 整个 目标 字符 串 ， 任 何在 内 部 调用 reset 方 法 的 方法 也 是 一 样 。 

eanchoring bounds 标 志 位。 如 果 检 索 范 围 不 等 于 整个 目标 字符 串 ， 
程序 员 可 以 设 定 ， 是 售 将 检索 范围 的 边界 设置 为 "文本 起 始 位 置 >? 和 ”?“ 文 
AN Za ORAL”, IOI MAST IDFR IU AASA) 。 

默认 情况 下 ， 这 个 标志 位 为 true， 但 也 可 能 改变 ， 可 以 通过 
useAnchoringBounds (388) 和 hasAnchoringBounds 方 法 来 修改 和 得 
询 。Reset 方 法 不 会 修改 标志 位 。 

etransparent bounds 标 志 位 。 如 果 检 索 范 围 症 整 个 目标 字符 串 中 的 一 
段 文 本 ， 设 置 为 true 容 许 各 种 “考察 Cooking) ”结构 (顺序 环视 、 闻 序 
环视 ， 以 及 单词 分 界 符 ) 超越 检索 范围 的 边界 ， 检 和 奉 外 部 的 文本 。 


默认 情况 下 ， 这 个 标志 位 为 false， 但 也 可 能 改变 ， 可 以 通过 
useTransparentBounds (388) 和 hasTran-sparentBounds 方 法 来 修改 和 
仁 询 。Reset 方 法 不 会 修改 标志 位 。 

下 面 的 只 读数 据 你 存在 matcher 内 部 : 

e 汉 六 pattern 的 捕获 型 括 扎 的 数目 可 以 通过 groupCount (°377) 方 
EAM. 

e 目标 字符 串 中 的 match pointer 或 current location， 用 于 支持 “寻找 下 
一 个 匹配 ?的 操作 《通过 find 方 法 至 375) 。 

e 目标 字符 串 中 的 append pointer, Æ AF-B HREP C380) ， 
复制 未 匹配 的 文本 部 分 时 使 用 。 

oN RASA PAN ERIS VERRAN ie he. ATL 
通过 hitEnd FE (390) 获得 这 个 标志 位 的 值 。 

ematch result。 如 有 果 最 近 一 次 匹配 生 试 成 功 ，Java 会 将 各 种 数据 收 
集 起 来 ， 合 称 为 match result (376) 。 包 括 匹 配 文 本 的 范围 《通过 
group O 方法 ) ， 匹 配 文本 在 目标 字符 串 中 的 起 始 和 结束 俩 移 值 〈 通 
Wstart () Mend O FYE) ， 以 及 每 一 组 捕获 型 括号 对 应 的 信息 (通过 
group (num) 、start (num) 和 end (num) 方法 ) 。 

match-result 数据 封装 在 MatchResult 对 象 中 ， 通 过 toMatchResult 
方法 获得 。MatchResult 方 法 有 目 己 的 group、start 和 end 方 法 〈 至 377) 。 

e 一 个 标志 位 ， 表 明 更 长 的 目标 文本 是 含 会 导致 匹配 失败 《匹配 成 
功 之 后 才 可 用 ) 。 如 采 边 界 元 字符 影响 也 配 结果 的 生成 ， 则 此 值 为 
true。 可 以 通过 requireEnd 方 法 但 看 它 的 值 (S390) 。 

上 和 耐 列 出 的 内 容 很 多 ， 但 是 如 来 按照 功能 分 别 讲解 ， 便 很 容易 竺 
握 。 这 正 是 下 面 几 节 的 内 容 。 把 这 一 间作 为 参考 手册 时 ， 本 章 开 涉 ( 志 
366) 的 列表 会 很 有 用 。 


应 用 正则 表达 式 


Applying the Regex 

把 matcher 的 正则 表达 陈 应 用 到 目标 文本 时 ， 主 要 会 用 到 Matcher 的 
这 些 方法 : 

boolean find() 

UOTE Epp 4 BY SR], C384) 中 应 用 Matcher 的 正 
MRA, JRA Boolean 4 an ze 79 ReaL. WR KYA, M 
每 次 都 在 上 次 的 匹配 位 置 之 后 答 试 新 的 匹配 。 没 有 给 定 参 数 的 find 只 使 
用 当前 的 检索 范围 (5384) 。 


下 面 是 简单 示例 : 
String regex = "\\wt"; 
SErIng Bert "Mastering Regular Expressions"; 
Matcher m = Pattern.compile (regex) .matcher (text); 
if (m.£ind() ) 

System out. printli ("march [™ + m.qroeupt) + *]™); 


结果 是 : 
match [Mastring | 
如 果 这 样 写 : 


while (m.find()) 
System.out.printin ("match [" + m.group() + =] 7j} 


2 RWE: 
match [Mastering] 


match [Regular] 
match [Expressions] 


boolean find ( int offset) 


WR SBMS, LACS Wes Mobs A te 4 a HF Khoffset“+ 
字 从 的 位 置 开 始 。 如 果 offset 为 负数 或 超出 了 目标 字符 串 的 长 度 ， 会 抛 
HK IndexOutOfBoundsException > ‘7 o 

这 种 形式 的 find 不 会 党 当前 检索 范围 的 影响 ， 而 会 把 它 设 置 为 整 
个 “目标 字符 串 ”(〈 它 会 在 内 部 调用 reset 方 法 号 392) 。 

第 400 页 的 补充 内 容 〈 作 为 第 399 页 问题 的 管 宁 ) 给 出 了 恰当 的 例 


boolean matches() 

此 方法 返回 的 Boolean 值 表示 matcher 的 正则 表达 式 能 人 否 完全 匹配 目 
标 字 符 串 中 当前 检索 范围 的 那 段 文 本 。 也 束 是 说 ， 如 条 匹配 成 功 ， 匹 配 
的 文本 必须 从 检索 范围 的 开头 开始 ， 到 检索 范 围 的 结尾 结束 《默认 情况 
束 是 整个 目标 字符 串 ) 。 如 果 检 过 范围 设置 为 默认 的 “有 所 有 文本 ”， 
matches 比 使 用 \A (C? : ...) \ 要 简单。 

不 过 ， 如 果 当 前 检索 范围 不 等 于 默认 情况 C384) ， 使 用 matches 
可 以 在 不 受 anchoring-bounds 标 志 位 〈 权 388) 影响 的 情况 下 检查 整个 检 
索 范 围 中 的 文本 。 

举例 来 说 ， 如 采 使 用 CharBuffer 来 保存 程序 中 用 户 输入 的 文本 ， 而 


检索 范围 设 定 为 用 户 用 鼠标 选 定 的 部 分 。 如 果 用 户 点 击 选区 的 部 分 ， 可 
以 用 m.usePattern (urlPattern) .matches O 来 检查 选 定 部 分 是 否 为 
URL 《如果 是 ， 则 进行 相应 的 处 理 ) 。 


String 对 象 也 支持 matches 方法 : 


"1234" .matches(™\\d+"); // true 
"1231" matches ("\\d4+"); // false 
ean lookingAt () 


此 方法 返回 的 Boolean 值 表 示 Matches 的 正则 表达 式 能 否 在 当前 目 
标 字 符 串 的 当前 检索 范围 中 找到 匹配 。 它 类 似 于 matches 方 法 ， 但 不 要 
求 检 索 范 围 中 的 整 段 文 本 都 能 匹配 。 


A W VL AC AG AR 


Querying Match Results 

下 面 列 出 的 Matcher 方 法 返回 了 成 功 匹 配 的 信息 。 如 来 正则 表达 式 
还 未 应 用 过 ， 或 者 匹配 策 试 不 成 功 ， 它 们 会 抛 出 IlegalStateException 。 
接收 num 参数 (对 应 一 组 捕获 型 括号) 的 方法 ， 如 果 给 定 的 num 非 法 ， 
会 抛 出 InmdexOutOfBoundsException 。 

请 注意 start 和 end 方 法 ， 它 们 返回 的 俩 移 信 不 党 检索 范围 的 影响 
偏 移 值 从 整个 目标 字符 串 的 开头 开始 计算 ， 而 不 是 检索 范围 的 开头 。 

后 面 还 给 出 了 一 个 例子 ， 讲 解 其 中 大 部 分 方法 的 使 用 。 

String group() 

JR [A il — VR by FS TE WU Re TY VL SOAS 

int groupCount() 

返回 正则 表达 式 中 与 Matcher 关 联 的 捕获 型 括号 的 数 日 。 在 group. 
start 和 end 方 法 中 可 以 使 用 小 于 此 数目 的 数字 作为 numth 参 数 ， 下 文 介绍 

HEA) x 

String gropu(int num) 

a SS Anum RAT SVL AHA AE, BROT ATR ATS 
RAB SULA, Wk llnull, WRnum K0, AAI IEE SVLACHI A ZA, 
group (0) W&F group ©) 。 

int start(int num) 


此 方法 返回 编号 为 “nume 的 捕获 型 括号 所 匹配 文本 的 起 点 在 目标 字 





侍 串 中 的 绝对 偶 移 值 即 从 目标 字符 串 起 始 位 置 开 始 计算 的 偶 移 值 。 
如 由 捕获 型 插 写 没有 参与 下 配 ， 则 返回 -1。 

int start() 

POTTER IB |B] ES VE AC eS R ERN  EL, start O WSE 
start (0) 。 

int end(int num) 

EA IE lal as A mum AF aR A FS PT VEC SC ABS AE H E 
AE EB A IZE OT AS TEL BUM H ERIT FB EWA eT a EY 2 EB 
CORRAL SASS LAC, WK H-1. 

int end() 

WRI IER [A] AE PS VEN A eT EL, end O HSS 
end (0) 。 

MatcheResult toMatchResult() 

此 方法 从 Java 1.5.07 ease bt, IREK MatchResultX} Ray 4e y AiL 
配 的 信息 。 它 和 Matcher 类 一 样 ， 也 包含 上 面 列 出 的 group、start、end 利 
groupCount 方 读 。 如 有 果 前 一 次 匹配 不 成 功 ， 或 者 Matcher 还 没有 进行 匹 
配 操作 ， 调 用 toMatcheResult Ju H IlegalStateException. 

示例 

下 面 的 例子 示范 了 下 干 方 法 的 使 用 。 给 定 一 个 URL “字符 串 ， 这 上段 
ao 的 协议 名 (‘http’ 或 是 https*) 、 主 机 名 ， 以 及 可 能 出 现 

端口 号 : 








String url = “http://regex.info/blog"; 
String regex = "(?x) “(https?):// ([*/:]+) (2: (\\d+t)) 2"; 
Matcher m = Pattern.compile (regex) .matcher (url); 


if (m.find()) 
System.out.print ( 


"Overall [" + m.group() + "]" + 

’ (rom * + m.start() +" to" + m.end() + ")\n" + 
"pc [7 + 2 aroro tl) F T= ¢ 

” (rom S + m.start(1) + " to " + m.end(1) + ")\n" + 
"Hostname [" + m.group(2) + "]" + 

* (from " + m.start(2) +" to " + m.end(2) + ")\n" 


) ; 
// group (3) 可 能 未 参与 匹配 ， 此 处 应 小 心 对 符 


if (m.group(3) == null) 

System.out.println("No port; default of '80' is assumed"); 
else { 

SYSten, OUR. printi Fore IS [" + maroup(s) + 7] " + 


"(from " + m.start(3) + " to " + m.end(3) + ")\n"); 


执行 的 结果 是 : 
Overall [http://regex.info] (from 0 to 17) 
Protocol [http] (from 0 to 4) 
Hostname [regex.info] (from 7 to 17) 
No port; default of '80' is assumed 
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Simple Search and Replace 

EETA 77K EWS ETT AR- RR TE SO, RELL, {Ase 
Matcher tett J fad (HAY 77 YZ; - 

String replaceAll(String replacement) 

返回 目标 字符 串 的 副本 ， 其 中 Matcher 能 够 匹配 的 文本 都 会 被 蔡 换 
为 replacement， 上 有 具体 处 理 过 程 在 380 页 。 

此 方法 不 党 检索 范围 的 影响 〈 它 会 在 内部 调用 reset 方 法 ) ， 不 过 第 
382 页 介绍 了 在 检索 疙 围 中 进行 这 样 操 作 的 方法 。 

String 类 也 提供 了 replaceAll 的 方法 ， 所 以 : 


string.replaceAll(regex,replacement) 

Bar ds 

Pattern.compile(regex).matcher(string ).replaceAll(replacement) 

String replaceFirst(String replacement) 

m 此 方法 类 似 replaceAll， 但 它 只 对 第 一 次 匹配 (如 果 存 在 ) HTE 

String 类 也 提供 了 replaceFirst 方 法 。 

Static String quoteReplacement(String text) 

此 static 方 法 从 Java 1.5 开 始 提供 ， 返 回 text 的 文字 用 作 replacement 的 
参数 。 它 为 text 副 本 中 的 特殊 字符 江 加 转 义 ， 避 免 了 下 一 页 讲解 的 正则 
表达 式 特 殊 字 符 处 理 〈 下 一 和 也 给 出 了 Matcher.quoteReplacement 的 例 
aes 

简单 查找 -替换 的 例子 

下 面 的 程序 将 所 有 的 “Java 1.5” 改 为 “Java 5.0”， 用 市 场 化 的 名 称 取 
TIT CB 


String result = m.replaceAll ("Java 5.0"); 

结 来 十 : 

Before Java 5.0 was Java 1.4.2.After Java 5.0 is Java 1.6 

如 果 pattern 和 matcher 不 需要 复 用 ， 可 以 使 用 链 式 编程 : 

Pattern.compile( " \\bJava\\s * 1\\.5\\b " ).matcher(text).replaceAll( " 
Java 5.0 " ) 

(如 果 单 个 线程 中 需要 多 次 用 到 同一 pattern， 预 编译 pattern 对 象 可 

以 握 升 效率 号 372 ) 

对 正则 表达 式 稍 加 修改 ， 束 可 以 用 它 来 把 “Java 1.6” 改 为 “Java 
6.0”( 当 然 也 需要 修改 replacement 字 符 串 ， 讲 解 见 下 页 )。 

Pattern.compile( " \\bJava\\s * 1\\.([56])\\b 
" ).matcher(text).replaceAll( " Java$1.0 " ) 

对 于 同样 的 输入 文本 ， 结 采 如 下 : 

Before Java 5.0 was Java 1.4.2.After Java 5.0 is Java 6.0 

如 采 只 需要 符 换 第 一 次 出 现 的 文本 ， 可 以 使 用 replaceFirst， 而 不 是 
replaceAll。 除 了 这 种 情况 ， 还 有 一 种 情况 可 以 使 用 replaceFirst， 即 明确 


知道 目标 字符 串 中 只 存在 一 个 匹配 时 ， 使 用 replaceFirst 可 以 提高 效率 
(如 果 了 解 正则 表达 式 或 是 目标 字符 串 ， 可 以 预知 这 一 点 )。 

replacement 参 数 

replaceAll 和 replaceFirst 方法 (以 及 下 一 节 的 appendReplacement 
方法 ) 接收 的 replacement 参 数 在 插入 到 匹配 结束 之前， 会 进行 特殊 处 
HE: 

e$1、'$2 之 关 会 蔡 换 为 对 应 编号 的 捕获 型 括号 匹配 的 文本 《〈$0 会 
BLE RA ATA LBC CAS) 。 

e 如 末 '$ 之 后 出 现 的 不 是 ASCI 的 数字 ， 会 抛 出 
IllegalArgumentException t * o 

4 之 后 的 数字 ， 只 会 应 用 “有 意义 ?的 部 分 。 如 采 只 有 3 组 捕获 型 括 
T, M $25 SRM ASA ae 5’, MIN Sess Hu Hh 
IndexOutOfBoundsException. 

e 友 笠 线 用 来 转 义 后 面 的 字符 ， 所 以 全 :表示 美元 符号 。 同 样 的 道 
H, 表示 反 冬 线 〈 在 Java 的 字符 串 中 ， 表 示 正 则 表达 式 中 的 必需 要 
用 四 个 冬 线 \\〉。 同 样 ， 如 果 有 12 组 捕获 型 括 写 ， 而 我 们 希望 使 用 第 
一 组 捕获 型 括 写 逻 配 的 文本 ， 然 后 是 ‘2?， 应 谱 是 这 样 ‘$1\2’。 

如 果 不 清楚 replacement 字 从 串 的 内 容 ， 最 好 使 用 
Matcher.quoteReplacement 方 法 ， 确 保 不 会 出 错 。 如 果 用 户 的 正则 表达 式 
是 URegex，replacement 是 URepl， 下 面 的 做 法 可 以 确保 普 换 的 安全 : 

Pattern.compile(uRegex).matcher(text).replaceAll(Matcher.quoteReplace 


iy ER TK FF FR 


Advanced Search and Replace 

有 两 个 方法 可 以 直接 操作 Matcher 的 查找 -替换 过 程 。 它 们 配合 起 
来 ， 把 结果 存 入 用 户 指 定 的 “StringBuffer 中 。 第 一 种 方法 每 次 匹配 之 后 
都 会 调用 ， 在 result 中 存 入 replacement 字 人 符 吕 和 匹配 之 间 的 文本 。 第 二 种 
A 法 会 在 所 有 匹配 完成 之 后 调用 ， 将 目标 字符 串 中 最 后 的 文本 捞 贝 过 


Matcher appendReplacement(StringBuffer result,String replacement) 

在 正则 表达 式 应 用 成 功 之 后 (通常 是 find〉 马上 调用 此 方法 会 把 两 
OS PRE ER aS] Bl fig FE AY) result P: 第 一 个 是 原始 目标 字符 串 罗 配 之 前 的 
文本 ， 然 后 是 经 过 上 面 讲解 的 特殊 处 理 的 replacement 字 人 符 串 。 

举例 来 说 ， 如 条 matcher m 与 正则 表达 式 \w+ Al‘-->one+test<--’ 4H 
联系 ，whbile 循 环 的 第 一 轮 情 况 如 下 : 


while (m.find() ) 
Ds ae see ay "XXX") 


find 找 到 下 画 线 标注 的 部 分 
然后 ， 第 一 次 appendReplacement 调 用 会 在 StringBuffer result H JNA 
nee AU SCAR <-->, DKITVL ACA CAS, iA replacement FF 
‘XXX’ 。 


While 循环 的 第 二 轮 ，find 匹 配 “>onettestk-- 。 此 时 调用 

er sb 附加 上 区 配 之 前 的 文本 ‘+ ，?， 然 后 仍然 是 字 付 
‘XXX’ 

这 样 sb 的 值 就 是 -之 XXX+XXX:，m 在 原始 目标 字符 串 中 对 应 的 位 
H ‘-- > onettest 

> 

--”。 现 在 该 使 用 appendTail 方 法 了 了， 下文 将 会 介绍 。 

StringBuffer appendTail(StringBuffer result) 

te aU A VRC Za REE Pe BE AY VO Bt Ja ——JCIN Hg Fy 
以 分 止 匹配 过 程 ) ， 这 个 方法 将 目标 字符 串 中 剩 下 的 文本 附加 到 提供 的 
StringBuffer 中 。 

在 上 例 中 ， 接 下 来 就 是 : 

m.appendTail(sb) 
m <- PAN Elsb. PERLE EY -->XXX+XXX<--, ER- 

AR- 75 FRAN VE 
me 下 面 实现 了 一 个 上 自己 的 replaceAl TIA (FFSEM AM, R ÆN 
YA) o 


-->one et+test<==" 


e 


public static String replaceAll(Matcher m, String replacement) 
| 
m.reset(); // 保证 Matcher 不 受 之 前 的 影响 
StringBuffer result = new StringBuffer(); // 生成 用 于 替换 的 副本 
while (m.find()) 
m.appendReplacement (result, replacement) ; 
m.appendTail (result) ; 
return result.toString(); // 转换 为 String， 然 后 返回 


它 与 Java AEN replaceAl EH, EARS RIE] C384) 的 


scl, rete a R- 4 eZ A E AIA ya E . 
为 了 弥补 这 个 缺憾 ， 下 面 的 replaceAl 只 在 检索 范围 中 进行 ， 修 改 和 
狐 增 的 代码 会 标注 出 来 : 


public static String replaceAllRegion(Matcher m, String replacement) 
{ 
Integer start = m.regionStart() ; 
Integer end = m.regionEnd() ; 
m.reset().region(start, end) ; if z: matcher, 之 后 恢复 region 


ringBuffer result = new StringBuffer(); /7/ 生 成 用 于 替换 的 副本 
Mile 4 1() ) 
D Epl j / 
li l ] mi ( ESS SULL } F 
return result.toString(); //##4¥ String, ABBA 


这 里 使 用 “方法 链 (译注 1) "Sa 合 reset 和 region， 详 细 讲 解 请 参 疯 第 
389 页 。 和 下面 的 程序 更 加 完善 ， 它 将 metric 变 量 中 的 摄氏 温度 转换 为 华氏 


mZ: 

// 构建 一 个 matcher， 匹 配 "Metric" 变 量 中 后 er 

// 下 面 的 正则 表达 达 式 是 : ( \dt(2:\.\d* )? )C\b 

Matcher m = ma A 

StringBuffer result = new StringBuffer (); // 生 成 用 于 替换 的 副本 

while (m.find()) 

{ 
float celsius = Float.parseFloat(m.group(1)); // 得 到 数值 ， 转 换 为 浮 点 数 
int fahrenheit = (int) (celsius * 9/5 + 32); // RHR 
m.appendReplacement (result, fahrenheit + "F"); // 4A 


m.appendTail (result); 


System.out.println(result.toString()); // 显示 结 采 


如 果 metric 变 量 包 含 “from 36.3C to 40.1C.”， 结 果 就 是 “from 97F to 
104F.”。 
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In-Place Search and Replace 


现在 还 只 出 现 过 对 String xT REA java.util.regex 的 例子 ， 但 是 
Matcher 其 实 适用 于 任何 实现 了 CharSegquence 接 口 的 类 ， 所 以 我 们 能 够 对 
目标 文本 进行 实时 的 、 原 地 (in place) 的 修改 。 
StringBuffer 和 StringBuilder 是 两 种 常用 的 实现 了 CharSequence 接 口 
的 类 ， 有 前 者 保证 线程 安全 性 ， 但 效率 略 低 。 这 两 者 部 可 以 作为 String 来 
使 用 ， 但 它们 的 值 可 以 变化 。 本 书 中 的 例子 使 用 了 StringBuilder， 但 如 
果 在 多 线程 环境 中 ， 请 使 用 StringBuffer。 
这 个 简单 的 例子 在 StringBuilder 中 搜索 大 写 单 词 ， 将 它们 蔡 换 为 小 
BI CES) : 
StringBuilder text = new StringBuilder("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\b[\\p{Lu}\\p{Lt}]+\\b") .matcher (text) ; 
while (m.find() ) 
text.replace(m.start(), m.end(), m.group().toLowerCase ()); 
System.out.println (text); 


结果 是 : 

It's so very rude to shout! 

其 中 匹配 了 两 次 ， 调 用 了 两 次 textreplace。 头 两 个 参数 指定 需要 著 
换 的 文本 范围 〈 跳 过 表达 却 匹 配 的 文本 ) ， 然 后 是 用 作 replacement 的 文 
本 《也 了 吏 是 匹配 文本 的 小 与 形式 ) 。 

因为 replacement 和 匹配 文本 长 度 相 同 ， 原 地 的 簿 找 - 殖 换 很 侧 单 。 
如 果 不 需 要 迭代 进行 舍 找 - 茶 换 ， 这 种 方法 非常 方便 。 

TR REAR CY E 

如 果 replacement 的 长 度 不 同 于 要 将 换 文本 的 长 度 ， 情 况 束 复杂 起 
来 。 对 目标 字符 串 的 修改 古 在 “背后 ”进行 的 ， 所 以 “匹配 指针 (match 
pointer) ”《〈 在 目标 字符 串 中 进行 下 一 次 find 的 开始 位 置 ) RATT 

要 解决 这 个 问题 ， 我 们 可 以 目 己 维护 匹配 指针 ， 明 确 告诉 find 下 一 
次 答 试 应 该 从 何 处 开始 。 下 面 的 例子 做 了 这 样 的 改进 ， 和 在 需要 插入 的 小 
5 CAPA ns S <b>...</b>: 


ene text = new StringBuilder ("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\b[\\p{Lu}\\p{Lt}]+\\b") .matcher (text) ; 
int matchPointer = 0;// 首先 从 字符 串 起 始 位 置 开 始 
while (m.find(matchPointer)) { 
matchPointer = m.end(); // 记录 本 次 匹配 结束 的 位 置 
text.replace(m.start(), m.end(), "<b>"+ m.group().toLowerCase() +"</b>) ; 
matchPointer += 7; // 和 具 上 添加 的 !<b>1! 和 "</b>， 


| 
System.out.printlin (text) ; 


结果 是 : 

It's <b>so</b> very <b>rude</b> to shout! 

Matcher 的 检索 范围 

The Matchers Region 

从 Javal.5 开始 ，Matcher FF ALIN AIA, WE, RATE 
DATE VL Ac A AR a HE H PEAR APS]. Ha Tae FP 
AS 围 包含 整个 目标 字符 串 ， 但 可 以 通过 region 方 法 实时 修 
Eve 

下 面 的 例子 检索 HTML 代码 字符 串 ， 报 告 不 包含 ALT 属性 的 
image tag。 对 同一 段 文本 (HTML) ， 它 使 用 了 两 个 Matcher: 一 个 寻找 
image tag， 夯 一 个 寻找 ALT 属 性 。 

尽管 两 个 Matcher 应 用 到 同一 个 字符 串 ， 但 它们 的 关联 只 局 限于 ， 
用 找到 的 image tag 来 限定 寻找 ALT 属 性 的 范围 。 在 调用 ALT-matcher 的 
eeh T 采 ， 我 们 用 刚刚 完成 的 image-tag 的 匹配 来 设 定 ALT-matcher 的 

AY E 

单 拿 出 image tag 的 body 之 后 ， 就 可 以 通过 得 找 ALT 来 判断 当前 的 tag 

Ae a ALT ISTE: 


// 查找 image tag 的 matcher。 变 量 'html' 包含 需要 处 理 的 HTM1 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>") .matcher (html); 


// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag 中 ) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =").matcher (html); 


// 对 html 中 的 每 个 image tag 

while (mImg.find()) { 
// 把 查找 范围 局 限 在 刚刚 找到 的 tag 中 
mAlt.region(mImg.start(1), mImg.end(1) ); 


// REARS], WRG, ARRAS image tag 
if (J mAlt.find()) 
System.out.println("Missing ALT attribute in: " + mImg.group()); 


或 许 在 一 处 指定 目标 字符 串 〈 创 建 mAlt Matcher 时 ) ， 男 一 处 指定 
检索 范围 《调用 mAltregion 时 ) 的 做 法 有 些 怪异 。 果 真如 此 的 话 ， 我 们 
可 以 为 mAlt 创 建 虚构 的 目标 字符 串 〈 一 个 空 学 从 串 〉， 然 后 每 次 都 调用 
mAlt.reset (html) .region(...) 。 调 用 reset 可 能 会 降低 些 效率 ， 但 是 同 
时 设 定 目标 字符 串 和 检索 范围 的 锡 辑 更 加 清晰 。 

无 论 采 取 哪 种 办 法 ， 都 必须 明白 ， 如 果 不 设 定 ALT Matcher 的 检索 
pm 对 它 调用 find 就 会 检索 整个 目标 字符 串 ， 返 回 无 关 的 'ALT=” 属 

下 面 继 续 完 善 这 个 程序 ， 返 回 找到 的 image tag 在 HTML 代码 中 的 
行 数 。 我 们 首先 隔离 出 image tag 之 前 的 HTML 人 代码， 然后 计算 其 中 的 换 
行人 符 数 。 

标注 部 分 为 新 增 代 码 : 


// 查找 image tag matcher, 变量 'html1 包 含 需要 处 理 的 AM 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>") .matcher (html); 
// SH ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag 中 ) 
Matcher mAlt = Pattern.compile("(?1x)\\b ALT \\s* =") .matcher (html); 
// 查找 换行 符 的 Matcher 
Matcher mLine = Pattern.compile("\\n") .matcher (html) ; 
// 对 HTML 中 的 每 个 img tag ... 
while (mImg.find()) 
| 
// 把 查找 范围 局 限 在 刚刚 找到 的 tag 中 
mAlt.region(mImg.start(1), mImg.end(1) ); 
// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
| 
// 计算 当前 image tag 之 前 的 换行 符 的 数量 
mLine.region(0, mImg.start()) ; 
int lineNum = 1; // 第 一 行 编号 为 1 
while (mLine.find() ) 
lineNum++; // 每 遇 到 一 个 换行 符 就 加 1 


System.out.println("Missing ALT attribute on line " + JIneNum) ; 


与 之 前 一 样 ， 每 次 设 定 ALT ”Matcher 的 检索 范围 时 ， 都 使 用 image 
matcher 的 start (1) 方法 得 到 image tag body 在 HTML 中 的 起 始 位 置 。 相 
反 ， 在 设 定 换行 符 匹 配 的 检索 范围 终点 时 ， 使 用 start O 方法 来 判断 整 
‘image tag 的 开始 位 置 (也 就 是 换行 从 计算 的 终点 )。 

JLA tebe 

记 住 ， 茶 些 检索 相关 的 方法 并 非 不 受 检 索 范 围 的 影响 ， 而 和 是 它们 在 
内 部 调用 了 reset 方 读 ， 把 检索 范围 设 定 为 默认 的 “全 部 文本 ”。 

e 均 检索 范围 影响 的 在 找 方法 : 

matches 
lookingAt 
find() (不 带 参数 ) 

e 会 车 置 matcher 及 其 检索 汇 围 的 方法 : 

find(text) (〈 带 一 个 参数 ) 


replaceAll 
replaceFirst 


reset (4M Zz) 


男 外 请 记 住 ， 罗 配 结果 数据 中 的 偏 移 值 (也 束 古 start 和 end 方 法 返回 
sa 征 不 受 检 索 范 围 影响 的 ， 它 们 只 与 整个 目标 字符 串 的 开始 位 置 

WERE AA ie A NI FP 

与 设 定 及 答 看 检索 范围 边界 的 方法 有 3 个 : 

Matcher region(int start,int end) 

将 matcher 的 检索 范围 设 定 在 整个 目标 字符 串 的 start 和 end 之 间 ， 数 
值 均 从 目标 字符 串 的 起 始 位 置 开 始 计算 。 它 同样 会 重 置 Matcher， 将 “ 匹 
配 指针 ? 指 同 检索 范围 的 开交， 所 以 下 一 次 调用 find 从 此 处 开始 。 

如 果 没 有 重新 设 定 ， 或 是 调用 reset 方 法 〈 无 论 是 显 式 调用 还 是 在 其 
他 方法 内 部 调用 到 392) ， 检 索 苑 围 都 不 会 变化 。 

R EHE NMatche RA, APE TAA A PERE C389) 。 

如 果 start 或 end 超 出 了 目标 字符 串 的 范围 ， 或 者 start 比 end 有 要 大 ， 会 
抛 出 PmdexOutOf-BoundsException 。 

int regionStart() 


ia E| Hr 28 Ye E ET ee a CE H a PY EL, BRU 


int regionEnd() 

1 JB] HI har 28 YC E A) RE H Se Ae EL, AAA H 
标 字 符 串 的 长 度 。 因 为 region 方 法 要 求 同 时 提供 start 和 end， 如 末 只 和 硕 望 
设置 其 中 一 个 ， 可 能 不 太 方 便 操 作 。 表 8-4 给 出 了 方法 。 


KB-4: 设 定 检索 范围 的 单个 边界 


起 始 边 界 结束 边界 Java 代码 
明确 设 定 不 修改 m.region(start, m.regionEnd()); 


不 修改 BF Ae m.region(m.regionStart(), end); 
明确 设 定 不 修改 m.reset().region(start, m.regionEnd()); 
不 修改 明确 设 定 m.region(0, end); 

jee ZA YE. El 


如 末 将 检索 范围 设 定 为 整个 目标 字符 串 中 的 一 段 ， 正 则 引擎 会 忽略 
拖 围 之 外 的 文本 。 也 了 吏 是 说 ， 检 索 范 围 的 起 始 位 置 可 以 用 入 匹配 ， 而 
它 可 能 并 不 是 目标 字符 串 的 起 始 位 置 。 

不 过 ， 某 些 情况 下 也 可 以 检查 检索 范围 之 外 的 文本 。 局 用 
transparent ” bounds 能够 让 “考察 (looking) ”结构 检查 范围 之 外 的 文本 ， 


uR anchoring bounds， 则 检索 乞 围 的 边界 不 会 被 视 为 输入 数据 的 起 
引 / 结 束 位 置 《除非 实际 情况 如 此 ) 。 

修改 这 两 个 标志 位 的 理由 与 修改 默认 检索 范围 密切 相关 。 之 前 用 到 
了 检索 范围 的 例子 都 不 需要 设 定 这 两 个 标志 位 一 一 与 检索 范 围 相关 的 奉 
找 既 不 需要 销 点 也 不 圾 要 “考察 "结构 。 

如 末 程 序 把 需要 用 户 编辑 的 文本 存放 在 «CharBuffer'#, FAP 4 Heth 
行 碍 找 - 蔡 换 操作 ， 束 应 当 把 操作 的 范围 限定 在 光标 之 后 的 文本 中 ， 所 
以 应 当 把 检索 范围 的 起 始 位 置 设 定 为 当前 光标 所 在 的 位 置 。 如 琳 用 户 的 
光标 指 癌 下 面 的 位 置 : 

Madagas_car is much too large to see on foot,so you'll need a car. 

要 求 把 \bear\b, 4 AN“automobile”. wre SA Za CBWE 
BOE AGN ZIG SAS), URAL RGSS 1k De TH ACH UR VL AC at oe CE Ba 
RWE: ‘Madagascar 。 这 是 因为 默认 情况 下 transparent bounds 标 
志 位 设 定 为 false， 因 此 Nb 将 检索 范围 起 始 位 置 设 定 为 文本 的 起 始 位 
置 ， 而 “看 不 到 ” 左 侧 还 有 和 字符。 如 果 将 transparent ”bounds 设 定 为 true， 
\b 束 能 看 到 ‘Cc’ 之 前 还 有 's*， 因 此 "\b 不 能 匹配 。 

Transparent Bounds 

与 这 个 标志 位 相关 的 方法 有 两 个 : 

Matcher useTransparentBounds(boolean b) 

xÆ transparent bounds 的 值 。 默 认为 false。 

此 方法 返回 Matcher 本 号 ， 故 可 用 在 方法 链 中 。 

boolean hasTransparentBounds() 

如 果 transparent 生 效 ， 则 返回 true。 

Matcher 的 transparent-bounds 默认 为 false。 也 就 是 说 检索 范围 的 边 
界 在 顺序 环视 、 逆 厅 坏 视 和 单词 分 界 从 “ 考 凤 * 时 是 不 咀 明 的 。 这 样 ， 正 
则 引擎 不 会 感知 到 检索 边界 之 外 的 字 从 ( 注 6) 。 

也 就 是 说 尽管 检索 范围 的 起 始 位 置 可 能 在 茶 个 单词 内 部 ， 仍然 
能 够 风 配 一 一 它 看 个 到 之 前 的 字母 。 

下 面 的 例子 说 明了 transparent bounds 设 置 为 false (BRU) 的 情况 : 

String regex = "\\bcar\\b"; // \b car\b 

String text = "Madagascar is best seen by car or bike."; 
Matcher m = Pattern.compile (regex) .matcher (text); 
m.region(/7, text.length()); 


m.£1na() } 
System.out.println("Matches starting at character " + m.start()); 





ee: 也 焉 是 说 义 管 检索 沌 围 的 起 始 位 置 可 能 在 茶 个 单词 内 部 ， 
\b 仍然 能 够 匹配 一 一 它 看 不 到 之 前 的 字母 。 

Matches starting at character 7 

单词 分 界 符 的 确 匹 配 了 检索 范围 的 起 始 位 置 ， 即 ”Madagas.car， 尺 
管 此 处 根本 不 是 单词 的 边界 。 如 果 不 设 定 transparent bounds， 单 词 分 界 
FF “AZ 4m (spoofed) >” 了。 

如 朱 在 find 之 前 诊 加 这 条 语句 : 

m.useTransparentBounds(true); 

ZERIE: 

Matches starting at character 27 


因为 边界 现在 是 透明 的 ， 引 擎 可 以 感知 到 起 始 边界 之 前 有 个 字 
Res’, ATLA Nb, 在 此 处 无 法 匹配 。 于 是 结果 就 成 了 ”Eee 


同样 ，transparent-bounds 只 有 在 检索 范围 不 等 于 “整个 目标 字符 
串 ” 时 才 有 意义 。 即 使 reset 方 法 也 不 会 香 置 它 。 

Anchoring bounds 

与 anchoring bounds 有 关 的 方法 有 : 

Matcher useAnchoringBounds(Boolean b) 

设置 matcher 的 anchoring-bounds 的 值 ， 默 认为 true。 

此 方法 会 返回 matcher 对 象 本 号 ， 故 可 用 于 方法 链 中 。 

boolean hasAnchoringBounds() 

WRH s anchoring bounds， 则 返回 true， 人 否则 返回 false。 

RAJAA F> anchoring bounds 为 true， 也 吏 是 说 行销 点 〈A\A 
$\z\Z) 能 匹配 检索 拖 围 的 边界 ， 即 检索 范围 不 等 于 整个 目标 字符 串 。 将 
它们 议 置 为 false 表 示 行 锁 点 只 能 匹配 检索 拖 围 内 ， 整 个 目标 字符 串 中 符 
合 规定 的 位 置 。 

禁用 anchoring bounds 的 理由 可 能 与 使 用 transparent bounds 一 样 ， 当 
用 户 的 “光标 不 在 整 段 文本 的 起 始 位 置 时 ”你 证 语意 的 完备 。 

与 transparent-bounds 一 样 ，anchoring bounds 也 只 有 在 检索 范围 不 等 
于 “整个 目标 字符 串 ? 时 才 有 意义 。 即 使 reset 方 法 也 不 会 重 置 它 。 


方法 链 


Method Chaining 


下 面 的 程序 初始 化 一 个 Matcher， 并 设 定 某 些 选 项 : 


Pattern p = Pattern.compile(regex); // 编译 regex 


Matcher m = p.matcher (text); // 将 regex 4 text 建立 联系 ,创建 Matcher 
m.region(5, text.length()); // 将 检索 范围 设 定 为 从 第 5 个 字符 开始 
m.useAnchoringBounds (false) ; // “^ 之 类 不 能 匹配 检索 范围 的 起 始 位 置 
m.useTransparentBounds (true) ; // 考察 结构 能 够 超越 检索 范围 


在 前 面 的 例子 中 我 们 看 到 ， 如 果 创 建 Matcher 之 后 不 再 需要 regex， 
可 以 把 前 面 两 步 合并 起 来 : 
Matcher m = Pattern.compile (regex) .matcher (text); 
m. region | text. length ( 将 检索 范围 设 定 为 从 第 5 DFARS 
之 类 不 能 匹配 检索 沁 围 的 起 始 位 置 
不 过 ， 因 为 Matcher 的 两 个 方法 会 返回 Matcher 本 号 ， 可 以 把 它们 整 
合成 一 行 〈《 尽 管 因 为 排版 的 原因 必须 列 为 两 行 ) : 


Matcher m = Pattern.compile (regex) .matcher (text) .region(5, text.length()) 
.useAnchoringBounds (false) .useTransparentBounds (true); 


HREAN, {EAL OR BE UT To OT IA RE” PR UATE 
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什么 ?而 不 是 “干什么 ”， 所 以 这 可 能 并 不 是 个 问题 。 在 第 399 页 的 程序 
中 ， 使 用 方法 链 可 以 你 证 格式 紧 竣 清晰 。 


构建 扫描 程序 


Methods for Building a Scanner 

Java 1.5 有 的 matcher 提 供 了 两 个 新 方法 ，hitEend 和 requireEnd， 它 们 主 
要 用 来 构建 扫描 程序 (Scanner) 。 扫 描 程序 将 字符 流 解 析 为 记号 
(token) 流 。 举 例 来 说 ， 编 译 亏 的 扫 摘 程序 会 把 "var' 雪 .34 解析 为 三 个 
w: INDENTIFIER.LESS_THAN.INTEGER。 

这 两 个 方法 帮助 扫描 程序 决定 ， 刚 刚 完 成 的 匹配 答 试 的 结果 是 耕 应 
该 用 来 解释 (interpretation〉 当 前 输入 。 一 般 来 襄 ， 只 要 其 中 一 个 返回 
true， 就 表示 在 做 出 决定 之 前 还 应 该 输入 更 多 有 的 数据 。 例 如 ， 如 果 当 前 
的 输入 数据 (比如 用 户 在 交互 式 调试 器 中 输入 的 命令 ) 是 单个 字 
从 ‘二 ，， 最 好 还 是 看 看 下 一 个 字符 是 否 “=，"， 才 能 决定 这 个 记号 是 
LESS_THAN 还 是 LESS_THAN_OR_EQUAL。 

在 大 多 数 应 用 正则 表达 式 的 项 目 中 ， 这 两 个 方法 可 能 派 不 上 用 场 ， 
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可 是 一 旦 需要 ， 马 们 就 是 不 可 合 代 的 。 在 这 些 不 遇见 的 场合 ，Java 1.5 
中 hitEend 方 法 存在 的 bug 束 很 让 人 恼火 。 不 过 ， 看 起 来 Java 1.6 已 经 修正 
了 这 个 错误 ，Java 1.5 中 的 解决 办 法 将 在 本 章 末 尾 介绍 。 

构建 扫 摘 程序 已 经 远 远 俩 离 了 本 书 的 主 征 ， 所 以 我 只 会 介绍 些 具 体 
方法 的 定义 ， 并 给 出 例子 (如 果 你 确实 圳 要 扫 插 程序 ， 应 该 去 看 看 
java.util.Scanner) 。 

boolean hitEnd() 

(Java 1.5 中 这 个 方法 古 不 可 菲 的 ， 解 决 办 法 参见 第 392 页 )。 

此 方法 表示 ， 正 则 引擎 在 上 一 次 匹配 笑 试 中 ， 是 否 检 查 了 输入 数据 
结束 之 后 的 数据 《而 无 论 上 一 次 匹配 是 含 成 功 ) 。 其 中 包含 \b 和 之 
RPA RRE - 

如 采 hitEnd 返 回 true， 则 输入 更 多 数据 可 能 会 改变 匹配 结果 《匹配 
成 功 变 为 匹配 失败 ， 匹 配 失 败 变 为 匹配 成 功 ， 或 者 匹配 文本 及 生变 
化 ) 。 相 反 ， 如 果 人 返回 false， 则 匹配 结果 已 经 确定 ， 输 入 更 多 的 数据 也 
不 会 改变 匹配 疆 

第 见 的 应 用 是 ， 如 果 匹 配 成 功 ， 而 hitEnd 返 回 true， 则 必须 等 竺 更 
多 的 输入 数据 才能 最 后 做 出 雇 定 。 如 末 匹 配 失 败 ， 而 hitEndi& [=] false, 
应 该 期 竺 更 多 的 输入 数据 ， 而 不 是 报告 语法 错误 。 

boolean requireEnd() 

此 方法 只 有 在 逻 配 成 功 之 后 才 有 意义 ， 它 表示 正则 引 获 的 匹配 成 功 
与 否 是 人 否 受 输入 数据 结尾 的 影响 。 也 就 是 说 ， 如 果 requireEnd 返 回 true， 
更 多 的 得 入 数据 可 能 导致 匹配 和 试 失败 ， 如 末 返 回 false， 更 多 的 输入 数 
据 可 能 改变 匹配 的 细 方 ， 但 不 会 导致 匹配 失败 。 

第 刚 的 应 用 是 ， 如 果 requireEnd 返 回 true， 在 最 后 做 出 决定 之 前 ， 必 
须 接受 更 多 的 输入 数据 。 

hitEnd 和 requireEnd 者 受到 检索 范围 的 影 啊 。 

使 用 hitEnd 和 requireEnd 的 例子 

表 8-5 给 出 了 在 lookingAt 搜 索 之 后 使 用 hitEnd 和 requireEnd 的 例子 。 
所 给 的 两 个 例子 虽然 很 简单 ， 但 足 人 够 解释 这 两 个 方 泛 。 

表 8-5: 在 lookingAt 搜 索 之 后 使 用 hitEnd 和 requireEnd 的 例子 


EL a | ER 
true e 





] \d+\b| [><]=? 1234" ‘eae tru 
2 \d+\b| [><]=? 1LZ38°>"56/" ‘1234°>*567' | false false 
3 | \d+\b| [><] =? = i true false 
4 | \dt\b| [><]=? eset T567 false false 
5 | \dt\b| [><]=? ‘>=! ‘Pe! false false 
6 | \d+\b| [><]=? er ‘B3567" false false 
7 | \d+\bl [><]=? ‘oops’ 匹配 失败 false 

8 (set|setup)\b | ‘se’ 匹配 失败 

9 | (set|setup)\b | ‘set’ ‘set’ rue true 
10 | (set|setup)\b | ‘setu’ 匹配 失败 

ll | (set|setup)\b | ‘setup’ ‘setup’ true 
12 | (set|setup)\b | ‘set*x=3’ ‘Set'x=3! false 
13 | (set|setup) \b ‘setup’x’ ‘setup’x’ false 
14 | (set|setup)\b | ‘self’ 匹配 失败 

15 | (set|setup) \b | ‘oops’ 匹配 失败 


表 8-5 中 上 上面 7 行 的 正则 表达 式 寻 找 一 个 非 负 整 数 以 及 4 个 比较 运算 
RP: 大 于 、 大 于 等 于 、 小 于 、 小 于 和 等于。 下面 8 行 的 正则 表达 式 更 倍 
单 ， 寻 找 单 词 set 或 是 setup © XATAR fal FE, 但 能 说 明 问 题 。 

举例 来 说 ， 第 5 行 中 ， 虽 然 整 个 目标 字符 串 都 能 匹配 ，hitEnd 仍 然 会 
返 回 false。 原 因 在 于 ， 尽 管 史 配 文 本 包含 目标 字符 串 的 最 后 一 个 字符 ， 
引擎 也 不 需要 检查 之 后 的 字符 《无 论 是 字符 还 是 分 界 符 ) 。 

hitEnd 的 bug 及 解决 办 法 

Java 1.5 中 的 hitEnd 方 法 存在 bug (Java 1.6 已 经 修正 ) ( 注 7) ,在 
作 些 特殊 情况 下 hitEnd 会 得 到 不 可 徘 的 结果 : 在 不 区 分 大 小 写 的 匹配 模 
式 下 ， 如 果 正 则 表达 式 的 茶 个 可 选 元 系 为 时 个 字 从 (尤其 是 当 它 的 匹配 
SAAMI) ， 允 会 出 错 。 

例如 ， 在 不 区 分 大 小 写 的 情况 下 使 用 ' >=? | ( 它 作 为 大 的 正则 表 
达 式 的 一 部 分 ) 会 谤 发 这 个 铺 误 ， 因 为 =: 是 可 选 的 单个 字符 。 在 不 区 
分 大 小 写 的 情况 下 使 用 'alanlthe (仍然 是 包含 在 大 的 正则 表达 式 中 )〉 也 
会 刻 友 这 个 错误 ， 因 为 单个 字符 'a 是 众多 多 选 分 文 之 一 ， 因 此 是 可 选 
的 。 

FAVA PIF xe ‘values? M r? \n\r? \n o 


解决 办 法 ”解决 的 办 法 是 破坏 诱发 条 件 ， 或 者 禁用 不 区 分 大 小 写 的 
匹配 《至 少 是 对 诱发 的 子 表达 式 禁 用 ) ， 或 者 是 把 单个 字符 蔡 换 为 其 他 
Tux, PIMA. 

第 一 种 办 法 会 把 ">=? BHA O -i: >=? ) ， 使 用 模式 修饰 
WE C110) 保证 不 区 分 大 小 写 的 罗 配 不 会 应 用 于 这 个 子 表 达 式 (这 
里 不 存在 大 小 写 的 区 别 ， 所 以 这 种 办 法 完全 没 问 题 〉，。 

如 末 使 用 第 二 种 办 法 ，'alanlthe 束 变 成 了 '[aAjlanlthe ， 代 表 了 使 用 
Pattern.CASE_INSENSITIVE 进 行 不 区 分 大 小 写 匹 配 的 情况 。 


Matcher 的 其 他 方法 
Other Matcher Methods 
这 些 Matcher 方 法 尚未 介绍 过 : 


Matcher reset() 

这 个 方法 会 重新 初始 化 Matcher WAZA, FAW- DE 
配 的 所 有 信息 ， 将 匹 配 位 置 指 同文 本 的 开头 ， 拒 检索 范围 《至 384) Tk 
复 为 默认 的 “全 部 文本 ”。 只 有 anchoring bounds 和 transparent bounds (= 
388) 不 会 变化 。 

Matcher 有 三 个 方法 会 在 内 部 调用 reset， 因 此 也 会 重新 设 定 检索 范 
Hal: replaceAll、replaceFirst， 以 及 只 使 用 一 个 参数 的 find。 

这 个 方法 返回 Matcher 本 里， 所 以 它 可 以 用 在 方法 链 中 (二 389) 。 

Matcher reset(CharSequence text) 

ZII A reset () 天 不 多 ， 但 还 会 把 目标 文本 改 为 新 的 
String 〈 或 者 任何 实现 CharSequence 的 对 象 ) 。 

如 果 你 希望 对 多 个 文本 应 用 同样 的 正则 表达 式 〈 例 如 ， 对 所 读 入 的 
文件 的 每 一 行 ) ， 使 用 reset 方 法 比 多 次 创建 新 的 Matcher 更 有 效率 。 

这 个 方法 返回 Matcher 本 旱 ， 所 以 可 以 用 在 方法 链 中 (二 389) 。 

Pattern pattern() 

Matcherf‘Jpattern 77 7% i [5] 5 Ue Matchersc Ek M Patten]. WR A 
望 观察 所 使 用 的 正则 表达 式 ， 请 使 用 m.pattern () .pattem O ， 它 会 调 
用 Pattern 对 象 〈 名 字 相 同 ， 但 对 象 不 同 〉 的 pattern 方 法 (号 394) 。 

Matcher usePattern(Pattern p) 

从 Java 1.5 开 始 添加 ， 这 个 方法 会 用 给 定 的 Pattern 对 象 符 换 当 前 与 
Matcher 天 联 的 Pattern 对 象 。 这 个 方法 不 会 重 置 Matcher， 上 所 以 能 够 在 文 
本 的 “当前 位 置 >? 开 始 使 用 不 同 的 pattern。 第 399 页 有 此 方法 实际 应 用 的 例 


了 于 和 讨论 。 
这 个 方法 返回 Matcher 本 号 ， 所 以 可 以 用 在 方法 链 中 〈 呈 389) 。 
String toString() 
从 Java 1.5 中 添加 ， 这 个 方法 返回 包含 Matcher 基 本 信息 的 字符 串 ， 
调试 时 这 很 有 用 。 字 符 串 的 内 容 可 能 会 变化 ， 在 Java 1.6 beta 中 是 这 样 : 
Matcher m = Pattern.compile("(\\wt)") .matcher ("ABC 123"); 
SVStem, Gut. princtlni(m.tostring ()) ; 
Me LANE) i: 
System. out..printin (m.toestring ()) 5 
结果 是 : 
java.util.regex.Matcher [pattern=(\wł+) region=0,7 lastmatch=] 
java.util.regex.Matcher[pattern=(\w+) region=0,7 lastmatch=ABC] 
Java 1.4.2 的 Matcher 类 只 有 继承 自 java.lang.Object 的 toString 方 法 ， 它 
返回 没什么 信息 含量 的 字符 串 : ‘java.utilregex.Matcher@480457’ - 
A VJ Matcher HY) H ir FIT FB 
Matcher 类 没有 提供 合 询 当前 日 标 字 符 串 的 方法 ， 但 有 些 办 法 绕 过 
了 这 种 限制 : 
// 此 pattern 在 下 面 的 函数 中 使 用 ， 此 处 编译 并 保存 ， 是 为 了 提高 效率 


Static final Pattern pNeverFail = Pattern.compile("*"); 


// 返 回 与 matcher 对 象 关 联 的 目标 字符 串 

public static String text(Matcher m) 

{ 
// 记 住 这 些 位 置 ， 以 备 之 后 恢复 
Integer regionStart = m.regionStart(); 
Integer regionEnd = m.regionEnd(); 
Pattern pattern = m.pattern(); 


// 只 有 这 样 才 能 返回 字符 串 
String text = m.usePattern (pNeverFail) .replaceFirst("") ; 


// 恢 复 之 前 记录 的 位 置 


m.usePattern (pattern) .region(regionStart, regionEnd) ; 


// 返回 文本 
return text; 


这 里 使 用 replaceFirst 方 法 ， 以 及 虚构 的 pattern 和 replacement 字 符 


串 ， 来 取得 目标 字符 串 的 未 经 修改 的 副本 。 其 中 它 重 置 了 Matcher， 但 
也 恢复 了 之 前 的 检索 范围 。 它 不 是 特别 好 的 解雇 方案 〈 效 率 也 不 是 很 
my, (i HENE Matcher 的 目标 字符 串 可 能 是 其 他 类 型 也 会 返回 
String) ， 但 是 在 Sun 给 出 更 好 的 办 法 之 前 ， 它 还 闭合 。 


pattern 的 其 他 方法 


Other Pattern Methods 

除了 主要 的 compile factories，Pattern 类 还 提供 了 一 些 辅助 方法 : 

split 

一 页 会 详细 讲解 两 种 形式 的 Split 方 法 。 

String pattern() 

这 个 方法 返回 用 于 创建 本 pattern 的 正则 表达 式 字 符 串 。 

String toString() 

这 个 方法 从 Java 1.5 之 后 可 用 ， 等 价 于 pattern 方 法 。 

int flags() 

n 这 个 方法 返回 pattern 创 建 时 传递 给 compile factory 的 fag 人 参数 (VEN 
整数 ) 。 

static String quote(String text) 

从 Java 1.5 开始 提供 的 static JYE, IREI text 对 应 的 正则 文字 字符 
H, Hele APattern.compile 的 参数 。 例 如 ，Pattern.quote〈《 ”main ©) 

") 返回 字 FFE \Qmain O \E”， 作 为 正则 表达 式 它 解释 为 \Qmain ©) 
YE ， 完 全 能 够 风 配 原始 的 参数 ‘main ©) ’. 

static boolean matches(String regex,CharSequence text) 

这 个 static 方 法 返回 的 Boolean 值 表示 正则 表达 式 能 合 匹 配 文 本 (与 
matcher 方 法 的 参数 一 样 ， 可 以 是 一 个 String 或 者 任何 实现 CharSequence 
的 对 象 至 373) 。 其 实 ， 它 等 价 于 : 

Pattern.compile(regex).matcher(text).matches(); 

如 朱 需 要 传递 编 详 参 数 ， 或 者 所 要 的 信息 不 上 只 是 简单 的 匹配 是 合成 
功 ， 则 应 该 使 用 之 前 介绍 的 办 法 。 

如 果 这 个 方法 需要 多 次 调用 (例如 ， 在 循 坏 中 ， 或 者 其 他 经 第 调用 
的 代码 中 ) ， 预 先 把 正则 表达 式 编译 为 一 个 Pattern 对 象 ， 然 后 每 次 应 用 
的 效率 会 高 很 多 。 


Pattern 的 Split 方 法 ， 单 个 参数 


Patter n's split Method,with One Argument 
String| | split(CharSequence text) 


pattern 的 这 个 方法 接收 文本 (一 个 CharSequence 对 象 ) ， 然 后 返回 


一 个 数组 ， 包 舍 由 这 个 pattern 对 应 的 正则 表达 却 在 其 中 的 匹配 分 隔 的 文 
本 。String 类 的 split 方 法 也 提供 了 同样 的 功能 。 
String[] result=Pattern.compile( " \\. " ).split( " 209.204.146.22 " ); 
返回 4 个 字符 串 构 成 的 数组 C209, ‘204’. 1467022) ， 由 文本 
中 的 三 个 仆 分 隔 。 这 个 简单 例子 只 用 单个 字符 分 隔 ， 但 其 实 我 们 可 以 
使 用 任何 正则 表达 去 。 例 如 ， 你 可 以 用 非 字母 和 数字 的 字符 把 一 个 字符 
串 粗略 地 分 为 “单词 ”: 


String[] result=Pattern.compile( " \\W+ " ).split(Text); 


如 果 给 出 的 字符 串 是 MTORR POS ， 则 返回 4 个 字符 囊 
(what, ‘sn ‘up’, ‘Doc’) ， 由 这 个 表达 式 的 3 KUE RAE 
ASCII 文本 ， 你 可 能 需要 使 用 \P{L}+ 或 |[ 和 Np{LMNp{N}_] 而 不 是 MW+ 
F367) 分 隔 。 

相 邻 四 配 之 间 的 空 元 系 

如 果 正 则 表达 式 能 够 在 文本 的 最 开头 下 配 ， 人 返回 数组 的 第 一 个 元 又 
应 该 是 空 字 从 串 〈 这 是 一 个 合法 的 字 从 串 ， 但 是 不 包括 任何 字符 〉 。 同 
样 ， 如 果 正 则 表达 式 能 够 在 某 个 位 置 史 配 两 次 以 上 ， 应 该 返回 空 字符 
串 ， 因 为 邻近 的 匹配 “分 割 ? 了 和 零 长 度 的 文本 。 例 如 : 

String[] result=Pattern.compile ("\\s*, \\s* ") .split C" , one, 
two，，，3" ) ;按照 两 边 可 能 出 现 空白 字符 的 逗号 来 分 制 ， 返 回 一 个 
5 ATRA: TFE., ‘ne, two, WARTEN 

FIRE EMKA TTI E MARA: 

String[] result=Pattern.compile( " : " ).split( " :xx: " ); 

这 样 会 得 到 两 个 字符 串 : ARFER. WRT ER a 
Tu, WEH FST ZA SSA split. 


Pattern 的 split 方 法 ， 两 个 参数 


Pattern's split Method,with Two Arguments 

String[] split(CharSequence text,int limit) 

这 个 版 本 的 split 方 法 能 够 控制 pattern 应 用 的 次 数 ， 以 及 结尾 部 分 可 
能 出 现 的 空 元 素 的 处 理 集 略 。String 类 的 split 方 法 也 可 以 获得 同样 效果 。 

limit 参 数 等 于 0， 大 于 0， 还 是 小 于 0， 各 有 意义 。 

limit 小 于 0 

GU Rlimit/) TO, woes te BH BUA AG FE HY 28 UR o 


String[] result=Pattern.compile( " : " ).split( " :xx: " ,-1); 


返回 包含 3 个 字符 串 的 数组 〈 一 个 空 字符 串 ，“xx'， 然 后 是 另 一 个 空 
字符 串 ) 。 


limit 等 于 0 
把 limit 设 置 为 0， 等 于 不 设置 limit， 所 以 不 会 保留 结尾 的 空 元 素 。 
limit 大 于 0 


如 采 1limit 关 于 0， 则 split 返 回 的 数组 最 多 包括 limit 个 元 素 。 也 残 是 
说 ， 正 则 表达 式 至 多 会 应 用 limitr1 次 。《〈 如 有 果 limit=3， 则 需要 2 次 匹配 来 
DEST FAT) 。 
进行 ”limit-1 次 匹配 之 后 ， 匹 配 人 停止， 目标 字符 串 中 其 余 的 部 分 
(在 最 后 一 次 匹配 之 后 的 文本 ) 会 作为 结果 数组 的 尾 元 素 。 
如 采 荣 个 字符 串 如 下 : 
Friedl,Jeffrey,Eric Francis, America,Ohio,Rootstown 
并 且 和 希望 得 到 头 三 个 部 分 ， 你 可 以 将 字符 串 分 割 为 4 个 部 分 〈 头 3 
个 部 分 是 名 字 ， 然 后 是 最 后 的 “其 他 ?字符 串 ) : 
String[] NameInfo = Pattern.compile(",").split(Text, 4); 
// NameInfo[0] %44 
// NameInfo[1]=#4 
// NameInfo [2] 是 中 名 (这 里 中 名 包括 两 个 词 ) 
// NameInfo[3] 是 其 他 部 分 ， 因 为 这 里 没 用 ， 直 接 忽 略 
为 split 设 置 jmit 的 理由 在 于 ， 如 果 不 需 要 更 多 地 处 理 ， 它 可 以 用 来 
停止 租 找 其 他 的 字符 串 、 创 建新 字符 串 ， 限 制 数 组 的 长 度 ， 提 高 效率 。 
提供 limit 能 够 限制 工作 量 。 


拓展 示例 


Additional Examples 
为 Image Tagy JH i FE FH tay FE JB VE 


Adding Width and Height Attributes to Image Tags 

这 里 给 出 个 高 级 的 例子 ， 原 地 Cin-place) AKAM, (EXHTML, 
你 证 所 有 的 image tag 都 包含 WIDTH 和 HEIGHT 属 性 (HTML 必须 是 
StringBuilder、StringBuffer， 或 者 其 他 CharSequence) 。 

只 要 有 一 副 岁 像 没 有 规定 宽度 或 者 高 度 ， 残 可 能 降低 整个 页 面 的 凌 
载 速度 ， 因 为 浏览 需 在 显示 这 由 网 像 之 前 必须 谈 入 整个 文件 。 如 采 包 含 
了 宽度 和 高 度 的 尺寸 ， 文 本 和 其 他 元 素 残 可 以 立刻 正确 摆 放 ， 这 样 用 户 
会 感觉 页 面谈 取 速 度 更 快 〈 注 8) 。 

如 果 找 到 image tag， 程 序 会 寻找 SRC、WIDTH 和 HEIGHT 属 性 ， 如 
果 存 在 ， 提 取 他 们 的 值 。 如 果 WIDTH 和 HEIGHT 有 一 个 不 存在 ， 就 先 取 
回 图 像 ， 计 算 尺 寸 ， 然 后 补充 上 属性 。 如 果 WIDTH 和 HEIGHT 都 没有 ， 
束 按 照 图 像 的 真实 尺寸 来 设置 这 些 属性 。 如 果 和 存在 一 个 ， 就 只 需要 算出 
男 一 个 属性 ， 它 的 值 是 按 比 例 计 算出 来 的 〈( 例 如， 如果 WIDTH 古 真实 
尺寸 的 一 半 ， 则 添加 的 HEIGHT 的 值 也 是 真实 高 度 的 一 半 ; 现代 的 浏览 
A LEIA EAE) 。 和 第 383 页 的 代码 一 样 ， 这 个 程序 手动 维护 匹配 
指针 。 它 还 使 用 了 检索 范围 (384) 和 方法 链 (389) 。 代 码 如 下 : 


// 匹配 独立 的 <img> tags 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/2?>") .matcher (html); 
// 匹配 独立 的 tag 中 的 SRC、 WIDTH fo HEIGHT 属性 (所 用 的 表达 式 很 简单 ) 
Matcher mSrc = Pattern.compile("(?ix)\\bSRC =(\\S+)").matcher (html); 
Matcher mWidth = Pattern. compile ("(?ix) \\bWIDTH =(\\S+)") .matcher (html); 
Matcher mHeight= Pattern. compile ("(?ix) \\bHEIGHT=(\\S+)") .matcher (html); 
int imgMatchPointer = 0; // 第 一 次 搜索 从 字符 串 起 始 位 置 开 始 
while (mImg.find(imgMatchPointer) ) 
{ 
imgMatchPointer = mImg.,end(); // 下 一 次 查 找 从 这 里 开始 
// 在 刚刚 找到 的 tag 中 查找 各 字段 
Boolean hasSrc = mSrc.region( mImg.start(1), mImg.end(1) ).find(); 
Boolean hasHeight = mHeight.region( mImg.start(1), mImg.end(1) ).find(); 
Boolean hasWidth = mWidth.region( mImg.start(1), mImg.end(1) ).find(); 
// 如 果 提 供 了 SRC 属性 ， 但 是 没 提供 WIDTH 和 /或 HEIGHT ... 
if ( hasSrc && (! hasWidth || ! hasHeight) ) 
{ 
java.awt.image.BufferedImage i = // 获 取 图 像 
javax ,imagdelo, ImadeIO.read (new java.net.URL(mSrc.group(1))); 
String size; // 存 放 未 提供 的 WIDTH 和 /或 HEIGHT 属性 
if (hasWidth) 
/ /得 到 了 width， 根据 比 例 计 算 height 
Size = "height="'" + (int) (Integer.parseInt (mWidth.group(1)) * 
i,getHeight() / i.getWidth()) + "' "; 
else if (hasHeight) 
// 得 到 了 height， 根据 比例 计算 width 


size= "width='" + (int) (Integer.parseInt (mHeight.group(1)) * 
i.getWidth() / i.getHeight()) + "' "; 
else // 两 个 属性 都 没 提供 ， 按 实际 情况 处 理 
size = "width='" + i.getWidth() + "' " + 
"height='" + i.getHeight() + "' "; 


html.insert(mImg.start(1), size); // 原 地 修改 HTML 
imgMatchPointer += size.length(); // 更 新 匹配 指针 
| 
} 


RP CRIT IRA AA SM, (Aide A> aT 5 EB. AAI 
PIF HES AHO RAS HR, SY pef y RAET TD, oi BE Ab 
理 的 HTML 进 行 了 理想 的 假设 。 例 如 ， 正 则 表达 式 不 容许 属性 的 等 写 两 
边 出 现 空 日 ， 属 性 中 不 会 出 现 引 号 (参考 第 202 页 的 Perl 正 则 表达 式 ， 可 


以 得 到 有 实际 意义 的 ，Java 版 本 的 tag 属 性 匹配 的 办 法 ) 。 这 个 程序 不 能 
处 理 相 对 URL， 也 不 能 处 理 格式 错误 的 URL， 也 不 能 处 理 获取 图 像 的 代 
AS HH JAE RAY o 

不 过 ， 这 个 例子 仍然 说 明了 几 个 重要 的 概念 。 


对 于 每 个 Matcher， 使 用 多 个 Pattern 校 验 HTML 


Validating HIML with Multiple Patterns Per Matcher 

我 们 也 可 以 用 Java 来 写 校 验 简 单 HIML 的 程序 C132) 。 这 段 代 码 
通过 usePattern 方 法 实时 更 换 Matcher 的 pattern。 这 样 能 够 处 理 多 个 以 \G 
开头 的 pattern， 进 行 对 应 的 操作 。 请 参考 第 132 页 的 内 容 了 解 此 方法 的 
更 多 细节 。 


Pattern pAtEnd = Pattern.compile("\\G\\z"); 


Pattern pWord = Pattern.compile("\\G\\wt"); 

Pattern pNonHtml = Pattern.compile("\\G[*\\w<>&]+"); 

Pattern pImgTag = Pattern.compile("\\G(?i)<img\\st+([*>]+)>"); 
Pattern pLink = Pattern.compile("\\G(?1)<A\\st([*>]+)>") ; 
Pattern pLinkX = Pattern.compile("\\G(?1i) </A>") ; 

Pattern pEntity = Pattern.compile("\\G& (#\\d+;\\wt);"); 


Boolean needClose = false; 
Matcher m = pAtEnd.matcher (html); // 4 Pattern 对 象 都 能 生成 Matcher * $% 
while (! m.usePattern (pAtEnd) .find()) 
{ 
if (m.usePattern(pWord).find()) { 
. m.group () 包含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 
else if (m.usePattern(pImgTag).find()) { 
LA image tag, 检查 是 否 合适 ,.. 
else if (! needClose && m.usePattern(pLink).find()) { 
. MAE, Bik... 
needClose = true; 
else 1f (needClose && m.usePattern(pLinkx).find()) { 
System.out.println("/LINK [" + m.group() + "]"); 
needClose = false; 
else if (m.usePattern(pEntity).find()) { 
// 容许 出 现 &gt; 和 &#123; 之 类 的 entity 
else if (m.usePattern(pNonHtml).find()) 1 
// 容许 出 现 其 他 非 单词 的 非 HTML 代码 
else | 
// 完全 无 法 匹配 ,肯定 出 了 锚 ， 在 此 处 选取 一 段 文 字 用 于 错误 输出 
m.usePattern (Pattern.compile("\\G(?s).{1,12}")).find(); 
ed out.println("Bad char before '" + m.group() + "'"); 
System.exit (1); 
} 


ee 


Te 


—— 


— 


—— 


el 


if (needClose) { 
System.out.println("Missing Final </A>"); 
System.exit (1); 

| 


因为 java.util.regex 的 bug， 非 HTML 的 罗 配 疾 试 即使 不 成 功 ， Ko 
会 “占用 ”目标 字符 串 中 的 一 个 字符 ， 有 所以 我 把 这 段 程 订 帮 在 最 后 。 这 
bug 仍然 存在 ， 只 是 表现 为 错误 输出 中 缺少 第 一 个 字符 。 pean 


bugte XA Sun. 
此 bug 没 有 修正 之 前 ， 访 如 何 使 用 单个 参数 的 find 方 法 来 解决 此 问题 
呢 ? o 请 翻 到 下 页 查看 答案 。 


在 单个 参数 的 fmnd0 中 使 用 多 个 Pattern 


o 第 399 页 问题 的 答案 
在 第 399 页 的 程序 中 , java.util.regex 错误 地 设置 了 matcher 的 “当前 人 位置", 所 以 
下 一 次 查找 会 从 错误 的 位 置 开 始 。 我 们 可 以 绕 过 这 个 bug， 自 己 记录 “当前 位 置 ”,， 使 
用 单个 参数 的 find 从 此 位 置 开始 查找 ， 

程序 中 修改 的 部 分 以 向 亮 显示 : 


Pattern pWord = Pattern.compile ("\\G\\wt"); 


Pattern pNonHtml = Pattern.compile("\\G[7*\\w<>é]+"); 

Pattern pImgTa = Pattern.compile ("\\G(?71)<img\\st([*%>]+) >"); 
Pattern pLink = Pattern.compile ("\\G(?1i)<A\\s+([*>]+)>"); 
Pattern pLinkx = Pattern.compile("\\G(?i)</A>"); 

Pattern pEntity = Pattern.compile ("\\Gé& (#\\d+|\\wt) i"); 
Boolean needClose = false; 


Matcher m = pWord.matcher(html); // #4 Pattern 对 章 都 能 生成 Matcher 对 象 
Integer currentLoc = 0; 
while (currentLoc < Atml.length () ) 
| 

if (m.usePattern (pWord) .find (currentLoc)}) { 

. m.group() 包含 一 个 单词 或 数值 ， 可 以 进 生 对 应 的 检查 
} else if (m.usePattern(pimgTag).find(currentLoc)) | 
自信 image tag, ##A GSI... 
} else if (! needClose && m.usePattern (pLink).find(currentLoc)) | 
needClose = true; 
} else if (needClose && m.usePattern(pLinkx) .find(currentLoc)) { 


System.out.printin("/LINK [" + m.group() + "]"); 
needClose = false; 
} else if (m.usePattern(pEntity).find(currentLoc)) { 


// 容许 出 现 &gt ;和 8&8#123; 之 类 的 entity 
} else if (m.usePattern(pNonHtml).find(currentLoc)) | 
// 容许 出 现 其 他 非 单词 的 非 HTML 代码 
} else { 
// 完全 无 法 匹配 ， 肯 定 出 了 错 ， 在 此 处 选取 一 段 文字 用 于 错误 输出 
m.usePattern (Pattern.compile("\\G(?s).{1,12}")).f£ind(currentLoc) ; 
System.out.printlin("Bad char at '" + m.group() + "'"); 
System.exit (1); 
} 
currentLoc = m.end(); //“ 妆 前 位 置 ” 指 向 上 凑 匹 配 的 结尾 
} 
if (needClose) | 
System.out.println("Missing Final </A>"); 
System.exit(1); 
} 


与 之 前 的 程序 不 同 , 这 里 调用 find 时 指定 了 检索 的 开始 偏 移 值 , 所 以 不 必 指 定 region, 
不 过 ， 你 可 以 自己 维护 这 个 region， 在 每 次 find 之 前 恰当 地 调用 region。 


m.usePattern (pWord).region(start, end) .find(currentLoc) 
a ee 


解析 CSV 文 档 


Parsing Comma-Separated Values (CSV) Text 

这 里 是 用 ”java.util.regex 写 的 解析 CSV ”的 例子 (参见 第 6 RS 
271) 。 这 里 的 程序 使 用 占有 优先 量词 《至 142) 取代 固化 分 组 ， 因 为 这 
样 看 起 来 更 清楚 。 


String regex = // 双 引 号 字段 保存 到 group (1) ， 非 引号 字段 保存 到 group (2) 


"A \n"+ 
ye} \n"+ 
i # 要么 是 双 引 与 字段 ,,， \n"+ 
i ERRI F \n"+ 
EEIT ee YY IY ee y 
i \" # 结 来 双 引号 \n"+ 
t oF ose RAR ea yan 
i # 非 引 用 ， 非 过 号 文 本 ，,， \n"+ 
i hae T his \n"+ 
"a \n"; 


// 根据 上 面 的 表达 式 创 建 matcher， 解 析 其 中 的 一 行 CSV 文档 
Matcher mMain = Pattern.compile(regex, Pattern.COMMENTS) .matcher (line) ; 
// 创建 匹配 "的 matcher， 目 标 文本 暂时 为 虚构 


Matcher mQuote = Pattern.compile("\"\"") .matcher("") ; 


while (mMain.find() ) 
String field; 
1f (mMain.start(2) >= 0) 
field = mMain.group(2); // 非 引号 字段 ， 直 接 使 用 
else 
// AFR, ARS) aR YA > 
field = mQuote.reset (mMain.group(1)).replaceAll("\""); 


// 现在 处 理 字 段 的 内 容 .,， 
System.out.println("Field [" + field + "]"); 
| 


这 个 程序 比 第 217 页 的 原始 程序 效率 要 避 很 多 ， 原因 在 于 : 正则 表 
达 式 效率 更 高 ， 按 照 第 6 章 第 271 页 介绍 的 办 法 ， 重 复 使 用 单个 
Matcher (通过 单个 参数 版 本 的 reset 方 法 ) ， 而 没有 不 断 创建 -回收 


Mather。 


Javai k A Z FF: 


Java Version Differences 

本 章 开 头 已 经 提 到 ， 本 书 主要 针对 Java 1.5.0。 不 过 ， 目 前 Java 1.4.2 
仍然 在 广泛 应 用 ， 而 Java 1.6 己 经 整 装 每 友 (CARA Sbetalk, (ARS 
很 快 友 布 正式 版 )。 所 以 ， 我 得 简要 地 提 一 下 1.4.2 和 1.5.0 (Update 7) 
之 加 的 差异 ， 以 及 1.5.0 和 目前 的 1.6“build 59g” Hy AF. 


1.4.2 和 1.5.0 之 间 的 差异 


Differences Between 1.4.2 and 1.5.0 

相对 Java 1.4.2, Java 1.5.0 添 加 了 许多 新 的 方法 。 大 多 数 新 的 方法 主 
要 是 为 了 支持 Matcher 的 检索 范围 。 此 外 ，Unicode 支 持 也 升级 并 提高 
效率 。 所 有 的 变化 都 在 下 面 两 节 详 细 介 绍 《〈“ 注 9) 。 

1.5.0 中 的 新 方法 

与 检索 范围 相关 的 Matcher 方 法 都 没有 出 现在 Java 1.4.2 中 : 

eregion 

eregionStart 

eregionEnd 

euseAnchoringBounds 

ehasAnchoringBounds 

euse TransparentBounds 

ehasTransparentBounds 

Java 1.4.2 也 不 包含 下 面 的 方法 : 

etoMatchResult 

ehitEnd 

erequireEnd 

eusePattern 

etostring 

Java 1.4.2 不 包含 下 面 这 个 static 方 法 : 

e Pattern.quote 

1.4.2 和 1.5.0 关 于 Unicode 文 持 的 差异 

1.4.2 和 1.5.0 在 Unicode 相 关 的 问题 上 有 这 些 变化 : 


eJava 1.4.2 的 Unicode 使 用 的 是 Unicode Version 3.0.0，1.5.0 使 用 的 是 
Unicode Version 4.0.0。 这 个 改变 影响 到 很 多 方面 ， 例 如 字符 的 定义 〈 例 
如 ， 在 Version 3.0.0 中 ，\WUFFFF 之 后 是 没有 代 介 点 的 ) ， 以 及 属性 和 
Unicode X FRAY 7 X- 

e 增 强 了 通过 \p{...} A \P{...} 引用 区 块 的 方式 (参加 Java KT 
Character.UnicodeBlock 的 文档 ， 得 到 区 块 列表 及 其 正式 名 称 )〉。 

Java 1.4.2 中 的 规则 是 “去 揉 官 方 代码 块 名 字 中 的 空格 ， 和 开头 的 
In”。 这 样 ， 区 块 引 用 就 类 似 \p{InHangulJamo} 和 和 
\p{InArabicPresentationForms-A } . 

1.5.0 ASIN S ARTIKA 4 AY TER IRA RZ A Bes 
加 ‘In?Y， 所 以 名 字 可 以 为 \p{InHangul*Jamo} 和 和 
\p{InArabic:Presentation*Forms-A}。 也 可 以 给 Java 的 区 块 标识 从 添加 本 
In? 〈 是 官方 名 称 ， 将 空格 和 和 连 字 符 答 换 为 下 男 线 ) 

\p{InHangul_ Jamo} 和 \p{InArabic_Presentation Forms_A}.。 

eJava 1.4.2 存 在 一 个 古怪 的 bug，Arabic Presentation Forms-B 和 Latin 
Extended-B 结 尾 的 “B” 必 须 写 作 “Bound”， 也 就 是 说 
\p{InArabicPresentationForms-Bound} 和 \p{InLatinExtended-Bound}. 

eJava 1.5.0 中 Character 类 的 jisSomeing 方 法 支持 正则 表达 式 (F 
369) 。 


1.5.0 和 1.6 之 间 的 差异 


Differences Between 1.5.0 and 1.6 

写作 本 书 时 已 经 发 布 的 1.6 和 1.5.0 在 正则 表达 式 的 问题 上 只 有 两 个 
ZA Wl A Fe Al 

eJava 1.6 提 供 了 之 前 没有 的 对 Pi 和 Pf 的 Unicode 分 类 的 支持 。 

e | \Q...\E 结构 的 bug 已 经 修正 了 ， 所 以 在 字符 组 中 可 以 正 第 工 
全 


9m NET 


NET 

Microsoft 的 .NET Framework nJ L(A Visual Basic. C# #IC++ 
(以 及 其 他 许多 语言 )，.NET 提 供 了 公用 的 正则 表达 式 库 ， 统 一 了 不 同 
语言 之 间 的 正则 表达 式 语 童 。 它 的 引 敬 特性 完备 ， 功 能 强大 ， 容 许 我 们 
在 速度 和 便利 之 间 求 得 最 大 的 均衡 〈 注 1) 。 

每 种 语言 在 处 理 对 象 和 方法 时 都 有 不 同 的 语意 ， 但 是 某 些 基本 的 对 
象 和 方法 在 所 有 语言 中 都 是 相通 的 ， 所 以 不 管 使 用 哪 种 语言 编号 的 复杂 
人 例子， 都 可 以 直接 转换 到 .NET 语 言 人 套件 中 的 其 他 语言 中 。 本 草 中 的 例子 
使 用 Visual Basic 。 

与 之 前 各 章 的 联系 ， 在 开始 本 章 的 内 容 之 前 必须 说 明 ， 第 1 到 6 和 章 的 
基础 知识 对 理解 本 章 非 党 重要 。 我 猜 媳 ， 有 些 只 对 .NET 有 兴趣 的 谈 者 可 
能 会 从 本 章 开 始 阅 读 这 本 书 ， 我 希望 他 们 认真 地 旋 一 谈 前 言 〈 尤 其 是 体 
例 部 分 ) 和 前 面 的 章节 : 第 1、2、3 章 介 绍 了 与 正则 表达 式 相 关 的 基本 
概念 、 特 性 和 技术 ， 第 4. 5. 6 间 介 绍 了 一 些 理解 正则 表达 式 的 关键 知 
识 ， 它 们 可 以 下 接应 用 到 .NET 的 正则 表达 式 中 。 前 儿 间 讲解 的 重要 概念 
包括 NEFA 引 擎 进 行 下 配 的 基本 原理 、 匹 配 优先 性 、 回 调和 效率 。 

接 下 来 要 强调 的 是 ， 除 了 用 于 速 租 列表 一 例如 本 章 的 第 407 页 ， 
和 第 3 曹 从 第 114 页 到 第 123 页 ， 我 并 不 布 望 这 本 书 成 为 参考 手册 ， 而 和 硕 
望 它 成 为 精通 正则 表达 云 的 详细 教科 书 。 

本 间 首 先 介 绍 .NET 的 正则 流派 ， 包 括 元 字符 的 支持 事宜 ， 以 
及 .NET 程 序 员 必 须 面 对 的 特殊 问题 。 然 后 是 总 括 .NET 中 正则 表达 式 相 
天 的 对 象 模 型 ， 详 细 讲 解 大 于 核心 地 位 的 ， 与 正则 表达 式 相 天 的 类 。 最 
后 用 例子 来 说 明 ， 如 何 将 预先 构建 好 的 正则 表达 式 封 装 到 共 圣 的 装配 件 
(assembly) 中， 组 成 个 人 的 正则 表达 式 库 。 


.NETH 的 正则 流派 


.NET'S Regex Flavor 

.NET 使 用 的 是 传统 型 NFA 引 擎 ， 所 以 第 4、5、6 草 讲解 的 NFA 的 知 
识 都 适用 于 .NET。 下 一 页 的 表 9-1 侧 要 说 明了 .NET 的 正则 访 铂 ， 其 中 大 
部 分 已 经 在 第 3 章 介绍 过 。 

在 接收 正则 表达 式 的 冰 数 和 结构 中 设置 标志 位 (flag〉， 或 是 在 正 
则 表达 式 之 内 使 用 | (? modes-modes) 和 '(? mods-mods: ...) 24 
构 ， 可 以 使 用 不 同 的 匹配 模式 ， 流 派 的 许多 方面 也 会 因此 发 生变 化 〈( 寺 
110) 。408 页 的 表 9-2 列 出 了 这 些 模 式 。 

其 中 包括 了 w 之 类 的 “ 纯 ? 转 义 。 它 们 可 以 直接 用 到 VB.NET 的 字 
TELF C"\w" ) MICH Hverbatim tE (@"\w") 中 。C++ 的 语 
言 没 有 提供 针对 正则 表达 式 的 字符 串 文 字 ， 所 以 正则 表达 云 中 的 反 斜 线 
在 字符 串 文 本 中 需要 双 写 (" Nw " ) 。 请 参考 “作为 正则 表达 式 的 字符 
$” (101) 。 

下 面 是 对 表 9-1 的 补充 说 明 : 

Cub 只 有 在 字符 组 内 部 才 作 为 退 格 符 。 在 字符 组 之 外 ，\b 匹 配 单词 
分 界 符 (#133) 。 

KH # 容许 出 现 两 位 十 六 进 制 数 他， 例如 "\xFCber VU Fit ‘tiber’ . 

\u###### 容 许 且 只 容许 四 位 十 六 进 制 数字 ， 例 如 Nu00FCber JL 
配 'iber， Nu20AC 匹配 。 

(2).NET Framework Version 2.0 中 的 字符 组 支持 集合 减法 ， 例 如 '[a- 
z-[aeiou]] 表示 小 写 的 非 元 音 ASCII 字 母 (125) 。 在 字符 组 内 部 ， 连 
字符 之 后 义 跟 看 字符 组 表示 字符 组 的 减法 运算 ， 减 去 后 面 池 符 组 内 部 的 
FEAF 

GNw、\d 和 \s〈 以 及 对 应 的 \W、\D 和 \$S) 通常 能 处 理 所 有 合适 的 
Unicode 字 符 ， 但 是 如 果 局 用 了 RegexOptions.ECMAScript (412) , Wè 
只 能 处 理 ASCII 字 符 。 

在 此 默认 模式 下 ，\w [匹配 Unicode 属性 \p{Ll}、\p{Lu}、\p{Lt}、 
\p{Lo}、\p{Nd} 和 \p{Pc}。 请 注意 ， 其 中 并 没有 \p{Lm} 〈 请 参考 第 123 页 
的 属性 列表 ) 。 


表 9-1: NET 正 则 表达 式 流派 概览 


字符 缩 略 表示 法 





#115 (c) \a [\b] \e \f \n \r \t \v\octal \x## \u## \cchar 
字符 组 及 相关 结构 

#118 字符 组 : pel [Me] (可 包含 集合 运算 符 字 125) 

F119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 

#120 (c) 字符 组 缩 略 表示 法 ; \w \d \s \W \D \S 

#121 (c) Unicode 属性 和 区 块 "; \p{Prop} \P{Prop} 

锚 点 及 其 他 零 长 度 断言 

129 行 /字符 串 起 始 位 置 ^ \R 

F129 HIFR PERE: $ \z \Z 

130 当前 匹配 的 起 始 位 置 ”，\NG 

7133 单词 分 界 符 : \b \B 

#133 环视 结构 ”，(?=…) (21e) (?<=…) (21) 
注释 及 模式 修饰 符 

& 135 模式 修饰 答 ，(?mods-mods) 容许 出 现 的 模式 ; x smi n (7408) 
命 134 模式 修饰 范围 ; (?mods-mods:…) 

© 136 EE: (?#…) 

分 组 及 捕获 

7137 捕获 型 括号 : (…) \L \2… 

P4 对 称 分 组 : (?<name-name>) 

© 409 命名 捕获 及 回溯 ，(?<1a1e>…) \k<name> 

© 137 仅 分 组 的 括号 : (?:…) 

139 固化 分 组 ，(?>…) 

7139 多 选 结 构 ， | 

#4] 匹配 优先 量词 : * +? {n} {n,} {x,y} 

14] 忽略 优先 量词 : *? +? ?3? {n}? {n,}? {x,y}? 

#109 RIFE: (2if then| else) — “if? 部 分 可 以 是 环视 、(num) X (name) 
(c) 一 一 可 用 于 字符 组 内 部 中 …… 回 见 说 明 





EAI P, \sVLAC '[-\f\n\r\t\v\x85\p{Z}], U+00857éUnicode 中 
的 NEXT LINE 控 制 字符 ，\p{Z} 瑟 配 Unicode 的 “分 隔 符 ?字符 OS 
122) 。 

(Np{...} 和 \P{...} 支 持 标 准 的 Unicode 属 性 和 区 块 (针对 Unicode 
Version 4.0.1) > Px Unicode Z FEK - 

区 块 名 要 求 出 现 ‘Is’ 前 级 (参考 第 125 页 的 表格 〉， 只 能 够 使 用 含有 
空格 或 者 下 辆 线 的 格式 。 例 如 ，\p{Is_Greek_Extended} 和 \p{Is Greek 
Extended} 是 不 容许 的 ， 正 确 的 只 有 \p{IsGreekExtended} 。 

.NET 只 支持 \p{Lu} 之 类 的 短 名 称 ， 而 不 支持 \p{Lowercase_Letter} 之 
类 的 长 名 称 。 蛙 字母 属性 也 要 求 使 用 花 括 号 〈( 也 就 是 说 ， 不 能 把 \p{L} 
简 记 为 pbL) 。 请 参考 第 122 和 第 123 页 的 表格 。 

NET 也 不 文 持 特殊 的 复合 属性 p{L&}， 以 及 特殊 属性 \p{AIH}、 
\p{Assigned} 和 \p{Unassigned}。 相 反 ， 你 可 以 使 用 ' (? s: .) 、 
\P{Cn},. ‘\p{Cn}, ar HIE - 

CNG 表 示 上 一 次 匹配 的 结束 位 置 ， 虽 然 文档 介绍 说 它 表 示 本 次 匹配 
的 开头 位 置 (130) 。 

©) ”顺序 环视 和 他 友 环 视 中 部 可 以 使 用 任意 形式 的 正则 表达 式 。 整 
我 所 知 ，.NET 正 则 引擎 是 唯一 容许 在 逆序 环视 中 出 现 能 够 匹配 任意 长 虔 
文本 表达 式 的 引擎 C133) 。 

(7) RegexOptions.ExplicitCapture 选 项 〈 也 可 通过 模式 修饰 符 (? n) 
WE) FEI BBA ©... 括号 的 捕获 功能 。 不 过 明确 命名 的 捕获 型 
括号 一 一 例如 〈? <num>\d+) 一 一 仍然 有 效 (138) 。 如 果 使 用 
了 命名 分 组 ， 此 选项 容许 你 使 用 更 加 美观 的 C.) ， 而 不 是 | OC? : 
...) ， 来 进行 纯粹 的 分 组 。 

表 9-2: NET 的 匹配 模式 和 正则 表达 式 模 式 





RegexOptions 选项 (?mode) | 说 明 


.Singleline 点 号 能 匹配 任何 字符 (111) 
‘Multiline 扩展 [和 1S) 的 匹配 (F111) 
.IgnorePatternWhitespace 设置 宽松 排列 和 注释 模式 (772) 
,IgnoreCase 进行 不 区 分 大 小 写 的 匹配 


.ExplicitCapture RM ， + — 只 有 (?<name>…)1 能 


"ECMAScript = wl -一 \dj 只 对 ASCI[ 字符 有 效 ( 字 412) 
.RightToLeft 装置 的 驱动 过 程 不 变 ， 但 是 万 向 相反 (MF 
wp 向 开头 移动 ) 。 不 幸 的 是 这 个 
选项 会 有 问题 (#411) 


a 这 样 应 用 时 匹配 更 
(#410) 


.Compiled 


对 于 流派 的 补 元 

Additional Comments on the Flavor 

下 和 面 介绍 一 些 其 他 的 相 天 细节 。 

命名 捕获 

.NET 文 持 命名 捕获 (5138) ， 它 通过 '(? <name>...) 或 是 
(2 name’...) 实现 。 这 两 种 办 法 是 等 价 的 ， 可 以 随意 选用 其 中 一 
种 ， 不 过 我 更 收 欢 过 >， 因为 我 相信 使 用 它 的 人 多 一 些 。 

要 反 回 引用 命名 捕获 匹配 的 文本 ， 可 以 使 用 \k<name>> 或 是 
\k'name', o 

Æi (tht zeMatchyt RA eZ Ja; 下 文 从 第 416 页 开始 概要 
介绍 .NET 的 对 象 模型 ) ， 命 名 捕获 匹配 的 文本 可 以 通过 Match 对 象 的 
Groups (name) Ja PERV iH] (C#(#HGroups[name]) 。 
fEreplacement*- 44 BF (5424) ， 命 名 捕获 的 结果 通过 ${fname} 来 
访问 。 

洒 些 情况 下 ， 可 能 需要 按 数 字 须 序 访 问 所 有 的 分 组 ， 所 以 命名 捕获 
的 分 组 也 会 饿 标 上 序 写 。 它 们 的 编写 从 所 有 未 命名 的 分 组 之 后 开始 : 


1 1 3 3 2 2 
(\w) (?<Num>\d+) (\s+) | 

本 例 中 ， 我 们 可 以 用 Groups <" Num" ) Groups (3) 来 访问 
\d+ 匹配 的 文本 。 这 两 个 名 字 对 应 同一 个 分 组 。 

ANERE 

— HTL BAS aE IE Fh R E SA a 24 FRE ER, M 
IR ORISA ST, A ZH) ES EPR TB RP ZB in SIL. OR RA R 
+s AF Split (3425) , Hk fEreplacement# 4f EAN Sf ‘$+? (=> 
424) , Fn Ss WAR HAE 

条 件 测试 

如 果 '(? if thenlelse) 中 的 if 部 分 (只 140〉 可 以 使 用 任意 类 型 的 
环视 结构 ， 也 可 以 在 括号 中 使 用 捕获 分 组 的 编号， 或 者 是 命名 分 组 的 名 
字 。 这 里 出 现 的 纯 文本 (或 者 纯正 则 表达 式 ) 会 被 目 动 当 作 肯定 型 顺序 
环视 来 处 理 ( 也 束 古 说 ， 可 以 将 其 看 作 '(? =...) 包围 的 结构 )。 这 
Ay eT: «PIG, |... C? (Num)  thenļelse) ... FAY’ (Num) | 
会 变 为 "〈? =Num) (也 束 古 顺序 坏 视 的 Num”) ， 如 果 在 正则 表达 式 
的 其 他 地 方 没 有 出 现 '(? <Num>...) 时 会 这 样 。 如 果 存 在 这 样 的 命 
ARR, iFM We E ee ART. 

我 推荐 不 要 依赖 这 种 “ 目 动 化 顺序 环视 Cauto-lookaheadfication) ”, 
而 明确 使 用 '(? =... 把 意图 传达 给 看 程序 的 人 ， 这 样 如 果 正 则 引擎 
在 未 来 修改 了 并 语 法 ， 也 不 会 市 来 意外 。 

“编译 好 的 ”正则 表达 式 

在 前 面 几 章 ， 我 使 用 “编译 Ccompile) ”这 个 词 来 描述 所 有 正则 表达 
式 系 统 中 ， 在 应 用 正则 表达 式 之 前 必须 做 的 准备 工作 ， 它 们 用 来 检查 正 
则 表达 陈 是 含 格式 规范 ， 并 将 其 转换 为 能 够 实际 应 用 的 内 部 形式 。 
在 .NET 的 正则 表达 式 中 ， 它 的 术语 是 “解析 Cparsing) ”。.NET 使 用 两 
种 意义 的 “ 编 详 ?来 指 涉 解析 阶段 的 优化 。 

下 面 是 增进 优化 效果 的 细 市 : 

e 解 析 (Parsing) 程序 在 执行 过 程 中 ， 第 一 座 过 到 正则 表达 式 时 必 
须 检 得 它 是 合格 式 规范 ， 并 将 其 转换 为 适 于 正则 引擎 实际 应 用 的 内 部 形 
式 。 此 过 程 在 本 书 的 其 他 部 分 称 为 “编译 (compile) ”。 

e 即 用 即 编译 〈On-the-Fly Compilation) 在 构建 正则 表达 式 时 ， 可 
以 指定 RegexOptions.Compiled 选 项 。 它 告诉 正则 引擎 ， 要 做 的 不 仅 是 此 
表达 却 转 换 为 菏 种 默认 的 内 部 形式 ， 而 是 编译 为 撒 层 的 
MSIL (Microsoft Intermediate Language) 代码 ， 在 正则 表达 式 实 际 应 用 


时 ， 可 以 由 JIT (“Just-In-Time’ Jae ah) 优化 为 更 快 的 本 地 机 和 需 代 码 。 

这 样 做 需要 化 费 更 多 的 时 间 和 空间 ， 但 这 样 得 到 的 正则 表达 式 速度 
更 快 。 本 节 之 后 会 讨论 这 样 的 权衡 。 

e 预 编译 的 正则 表达 式 一 个 (或 多 个 ) Regex 对 象 能 够 封装 到 
DLL (Dynamically Loaded Library, WREE P, ER 
盘 上 。 这 样 其 他 的 程序 也 可 以 直接 调用 它 。 称 为 “编译 装配 件 

(assembly) ”。 请 参考 “正则 表达 式 闭 配件”( 吧 434) 获得 更 多 信息 。 

如 末 使 用 RegexOptions.Compiled 来 进行 “ 即 用 即 编译 ”的 编译 ， 在 局 

动 速度 ， 持 续 内 存 占 用 和 匹配 速度 乙 间 ， 存 在 此 请 彼 长 的 天 系 : 


标 准 不 使 用 RegexOptions.Compiled 使 用 RegexOptions.Compiled 
较 快 


尼 动 速度 较 慢 (最 多 提升 60 18) 





AAS A 多 (每 个 表达 式 占用 5-15KB) 
匹配 速度 最 多 能 提升 10 倍 


在 程序 第 一 次 遇 到 正则 表达 陈 时 进行 初始 的 正则 表达 式 解 机 〈 默 认 
情况 ， 即 不 用 RegexOp-tions.Compiled) 相对 来 说 是 很 快 的 。 即 使 在 我 
这 人 台 有 年 头 的 550MHZz NT 的 机 器 上 ， 每 秒 钟 也 能 进行 大 约 1 500K RAR 
编译 。 如 果 使 用 RegexOptions.Compiled， 则 速度 下 降 到 每 秒 25 次 ， 每 个 
正则 表达 式 需 要 多 占用 大 约 10KB 内 存 。 

更 午 要 的 是 ， 在 程序 的 执行 过 程 中 ， 这 块 内 存 会 一 直 占 用 一 一 它 无 
法 释放 。 

在 对 时 间 要 求 不 严格 的 场合 使 用 RegexOptions.Compiled 无 疑 是 很 有 
硬 义 的 ， 在 这 里 ， 速 度 是 很 重要 的 ， 尤 其 是 需要 处 理 大 量 的 文本 时 更 是 
如 此 。 另 一 方面 ， 如 采 正 则 表达 式 很 简单 ， 需 要 处 理 的 文本 也 不 是 很 
多 ， 这 样 做 束 没 有 意义 。 如 条 情况 不 是 这 样 晨 日 分 明 ， 访 如 何 选 择 残 不 
那么 容易 了 必须 具体 情况 上 其 体 分 析 ， 以 进行 取舍 。 

菏 些 情况 下 ， 把 编译 的 正则 表达 式 作 为 “编译 好 的 ”正则 对 象 封 疙 到 
DLL 中 是 很 有 价值 的 。 最 终 的 程序 所 占 的 内 存 更 少 〈 因 为 不 必 疙 载 编 详 
正则 表达 式 所 震 的 包 ) ， 闭 载 速度 更 快 〈 因 为 在 DLL 生成 时 它们 已 经 
编译 好 了 ， 只 需要 直接 使 用 即 可 〉，。 男 一 个 不 错 的 副产品 束 是 ， 表 达 式 
还 可 以 供 其 他 需要 的 程序 使 用 ， 所 以 这 是 一 种 组 建 个 人 正则 表达 式 库 的 
好 办 法 。 请 参考 第 435 幢 的 “使 用 疙 配件 构建 自己 的 正则 表达 式 库 ”。 

MA W Æ H IL Ae 

KHAR, IEW RAST ALA tA — AMME A 
(backwards) ”匹配 〈 即 从 右 同 左 ， 而 不 是 从 左 同 右 ) 。 对 开发 人 员 来 





说 ， 最 大 的 问题 可 能 是 , “从 右 癌 左 ? 的 匹配 到 底 是 什么 意思 ? 是 整个 正 
则 表达 式 都 需要 反 过 来 吗 ? 还 是 说 ， 这 个 正则 表达 式 仍 然 在 目标 字符 串 
中 进行 尝试 ， 只 是 传动 装置 从 结尾 开始 ， 驱 动 过 程 从 右 同 左 进 行 ? 

扫 开 这 些 纯粹 的 概念 ， 看 个 具体 的 例子 : 用 \d+ 匹配 字符 
P “123-and-456’. FAME IE MTA PG Re 123’, Mahan, MA W 
FAL VO ACH 2 RMI 75456’. AW, WRENS AEA AU, MAE 
串 末 尾 开始 ， 驱 动 过 程 从 左 同 右 进行 ， 结 果 可 能 束 会 出 乎 意料 。 在 攻 些 
语意 下 ， 正 则 引擎 能 够 正常 工作 (从 开始 的 位 置 同 右 “看 ”) ， 所 以 第 一 
次 尝试 dt 是 在 “ “9,，， 这 里 无 法 匹配 。 第 二 次 尝试 在 “和 36，， 
这 里 能 够 风 配 ， 所 以 驱动 过 程 开 始 “考察 * 位 置 ‘6?， 这 当然 可 以 逻 配 
\d+ ， 所 以 最 后 的 结束 是 “6 。 

.NETI 的 正则 表达 去 提供 了 RegexOptions.RightToLeft 的 选项 。 但 它 完 
BETA MMe? FRE: “这 问题 全 得 思索 。” 它 的 语意 没有 文档 ， 我 
训 试 了 也 无 法 找到 规律 。 在 许多 情况 下 一 一 例如 '123:and.456'， 它 给 出 
符合 直觉 的 结果 〈 也 束 是 "456:) 。 

不 过 ， 有 时 候 也 会 报告 没有 匹配 结果 ， 或 是 匹配 跟 其 他 结果 相 比 守 
无 意义 的 文本 。 

如 果 需 要 进行 从 右 癌 左 的 匹配 ， 你 可 能 会 发 现 ， 
RegexOptions.RightToLeft ”似乎 能 得 到 你 期 望 的 结果 ， 但 是 最 后 ， 你 会 
友 现 这 样 做 得 时 风险 。 

RR R-E RIZ XPE 

AF IRTE RRA ZA, AREA TERIA FX, tH fee e 5| 
Ho SREMA, Rk Te aE J RegexOptions.ECMA Script 
eT. WRB ANA AA, AWE \k<num> RRR 
回 引 用 ， 或 者 在 表示 十 进 制 数 时 以 0 开头 《例如 \08 ) 。 这 两 种 办 法 不 
受 RegexOptions.ECMAScript 的 影响 。 

如 果 没 有 使 用 RegexOptions.ECMASCript， 从 AL 到 "9 的 单个 转 义 
数字 通常 代表 反 同 引用 ， 而 以 0 开头 的 转 义 数字 通 芝 代表 十 进 制 转 义 
(例如 ，N012 匹配 ASCH 的 进 纸 符 linefeed) ， 际 此 之 外 的 所 有 情况 
下 ， 如 果 “ 有 意义 ”( 也 残 是 说 某 个 正则 表达 式 中 有 足够 多 的 捕获 型 括 
Ss) ， 数 字 都 会 被 作为 反 回 引用 来 处 理 。 否 则 ， 如 果 数 字 的 值 处 于 \000 
和 \377 之 间 ， 束 作为 十 进 制 转 义 。 例 如 ， 如 果 捕 获 型 括号 的 数目 多 于 
12， 则 \12 会 作为 反 回 引用 ， 侣 则 束 会 作为 十 进 制 数 字 。 

下 一 节 详 细 讲 解 RegexOptions.ECMAScript 的 语意 。 

ECMAScript 模 式 





ECMAScript 的 基础 是 一 种 标准 版 本 的 JavaScript( 注 2) ， 还 包含 了 
它 日 己 的 解析 和 应 用 正则 表达 式 的 语意。 如 末 使 用 
NET 的 正则 表达 式 就 会 模拟 这 些 语 


RegexOptions.ECMAScript 选项 ， 
是 。 如 果 你 不 明日 ECMASCript 的 含义 ， 或 者 不 需要 兼容 它 ， 驳 完全 可 


如 果 司 用 了 RegexOptions.ECMASCript， 将 会 应 用 下 面 的 规则 : 
eRegexOptions.ECMAScript 只 能 与 下 面 的 选项 同时 使 用 : 


RegexOptions.IgnoreCase 
RegexOptions.Multiline 
RegexOptions.Compiled 


i> Pals 


ewWw、\d、\s、\WW、\D、\S 只 能 匹配 ASCII 字 符 。 

e 上 则 表达 式 中 的 反 儿 线 -数字 的 友 列 不 会 有 肥 回 引用 和 十 进 制 转 义 
的 二 义 性 ， 它 只 能 表示 反 向 引用 ， 即 使 这 样 需要 截断 结尾 的 数字 。 例 
a, ' ©...) \10 中 的 A\10 会 被 处 理 为 ， 第 1 组 捕获 性 括号 匹配 的 文本 ， 


然后 是 文字 ‘0’。 


使 用 .NET 正 则 表达 式 


Using.NET Regular Expressions 

.NET 正 则 表达 式 功 能 强大 ， 语 法 清晰 ， 通 过 完整 而 易于 使 用 的 类 接 
口 来 操作 。 里 然 微 软 的 正则 表达 式 包 做 得 很 尝 壳 ， 文 档 却 相反 一 一 它 非 
第 糟 糙 。 文 档 不 够 全 面 ， 编 写 不 够 清晰 ， 缺 乏 组 织 ， 有 时 甚至 不 能 保证 
正确 性 。 我 伦 了 很 长 的 时 间 才 整理 清楚 ， 所 以 希望 这 一 章 的 内 容 能 够 让 
读者 更 清楚 地 理解 .NET 的 正则 表达 式 。 


正则 表达 式 快 速 入 门 





Regex Quickstart 

即使 不 需要 知道 正则 类 模型 (regex class model) 的 细节 ， 也 可 以 直 
接 上 手 使 用 ,NET 的 正则 表达 式 包 。 理 解 细节 能 够 让 我 们 获得 更 多 的 信 
思 ， 提 高 工作 效率 ， 但 是 下 面 这 些 简 单 的 例子 没有 明确 创建 任何 正则 
关 ， 细 帮 将 在 例子 之 后 所 到 。 

使 用 正则 表达 陈 库 的 程序 必须 在 文件 的 开头 写 上 下 面 这 条 语句 ， 下 
面 的 例子 假设 此 人 句 已 经 存在 : 

Imports System.Text.RegularExpressions 

下 面 的 例子 都 能 正常 处 理 String 变 量 TestStr。 本 章 的 所 有 例子 中 ， 
选用 的 变量 名 都 以 料 体 标注 。 

快速 入 门 : 在 字符 串 中 寻找 匹配 

这 段 程序 检 查 一 个 正则 表达 式 是 寿 能 思 配 字符 串 : 

rf Regex. ISMoteht TooESte,. *“\s*s™) 
Console.WriteLine ("line is empty") 


Else 
Console.WriteLine("line is not empty") 


Ena LE 


这 个 例子 使 用 了 匹配 模式 : 

If Regex.IsMatch(TestStr, "^subject:", RegexOptions.IgnoreCase) 
Console.WriteLine("line is a subject line") 

Else 
Console.WriteLine("line is not a subject line") 

End If 


REAT]: 匹配 ， 获 得 匹配 文本 


这 个 例子 显示 正则 表达 式 实 际 匹 配 的 文本 。 如 采 没 有 匹配 ， 
TheNum Wize T FIFE. 
Dim TheNum as String = Regex.Match(TestStr, "\d+") .Value 


If TheNum <> "" 
Console.WriteLine ("Number is: " & TheNum) 


End If 
这 个 例子 使 用 了 一 个 还 配 模式 : 
Dim ImgTag as String = Regex.Match(TestStr, "<img\b[*>]*>", _ 
RegexOptions.IgnoreCase) .Value 


Ti itigiag <> Ta 
Console.WriteLine("Image tag: " & ImgTag) 


End If 

快速 入 门 : 匹配 ， 获 得 捕获 文本 

这 上 段 程序 以 字符 串 的 形式 返回 第 1 个 捕获 分 组 的 匹配 文本 : 
Dim Subject as String = 


Regex.Match(TestStr, "“Subject: (.*)").Groups(1).Value 
ILE Subject <> ~e 

Console.WriteLine ("Subject is: " & Subject) 
End If 


请 注意 ， 在 C# 中 应 使 用 Groups[1] 取 代 Groups (1) 。 
下 面 的 程序 目的 相同 ， 只 是 使 用 了 match 选 项 : 
Dim Subject as String = 


Regex.Match(TestStr, "*subject: (. 加 
RegexOptions.IgnoreCase) .Groups (1) .Value 


Li Subject <2 ™ 
Console.WriteLine ("Subject is: " & Subject) 


End If 
仍然 是 相同 的 程序 ， 只 是 使 用 命名 捕获 : 


Dim Subject as String = _ 
Regex.Match(TestStr, "“subject: (?<Subj>.*)", _ 
RegexOptions.IgnoreCase) .Groups ("Subj") .Value 


lg Supyect <> "~ 
Console.WriteLine ("Subject is: " & Subject) 


End If 
快速 入 门 : ARA HR 
这 个 例子 把 输入 的 字符 串 转 换 为 ”HTML"“ 安 全 ”的 字符 ， 把 特殊 的 
HTML 转换 为 HIML entity: 


和 


TestStr = Regex.Replace(TestStr, "&", “&amp;"™) 
TestStr = Regex.Replace(TestStr, "<", "&lt;™) 
TestStr = Regex.Replace(TestStr, ">", "&gt;") 


Console.WriteLine ("Now safe in HTML: " & TestStr) 


replacement 字 符 串 《第 3 个 参数 ) 的 处 理 是 很 特殊 的 ， 第 424 页 的 补 
充 内 容 做 了 讲解 。 例 如 ， 在 replacement FER, SEER EURIA 
式 真 正 罗 配 的 区 本 所 伶 代 ， 下 面 的 例子 给 大 写 的 单词 添加 二 B...<=/B 
>: 


TestStr = Regex.Replace(TestStr, "\b[A-Z]\w*", "<B>S&</B>") 
Console.WriteLine ("Modified string: " & TestStr) 
XSF IE<B>...</B> HARK AAD S AULA) ARAKI 
>... </l>: 
TestStr = Regex.Replace(TestStr, "<b>(.*?)</b>", "<I>$1</I>", _ 


RegexOptions.IgnoreCase) 
Console.WriteLine ("Modified string: " & TestStr) 


包 概 哆 


Package Overview 

退 过 丰 是 而 便捷 的 类 结构 ， 可 以 使 用 .NET 正 则 表达 式 几 乎 所 有 的 功 
能 。 下 面 这 个 完整 的 控制 从 程 序 ， 所 供 了 关于 整个 包 的 概 哆 ， 它 明确 使 
用 各 种 对 象 来 进行 简单 的 匹配 。 


Option Explicit On ' 使 用 正则 表达 式 时 并 非 必须 这 样 写 
Option Strict On ' 但 这 样 做 是 个 好 习惯 
' 简化 正则 表达 式 相 关 的 类 的 访问 


Imports System.Text.RegularExpressions 


Module SimpleTest 
Sub Main () 
Dim SampleText as String = "this is the lst test string" 
Dim R as Regex = New Regex("\d+\w+") ' 编 译 这 个 pattern 
Dim M as Match = R.match(SampleText) !' 应 用 到 字符 串 中 
If not M.Success 
Console.WriteLine ("no match") 
Else 
Dim MatchedText as String = M.Value WzR... 
Dim MatchedFrom as Integer = M.Index 
Dim MatchedLen as Integer = M.Length 
Console.WriteLine("matched [" & MatchedText & "]" & _ 
" from char#" & MatchedFrom.ToString() & 


" for " & MatchedLen.ToString() & " chars.") 
End If 
End Sub 
End Module 


通过 命令 行 提 示 符 来 执行 ， 把 \d+\w+, 应 用 到 同样 的 文本 ， 结 果 


gu 


matched [1st] from char#12 for 3 chars. 

导入 正则 表达 式 名 字 空 间 

你 注意 到 程序 头 部 的 Imports System.Text.RegularExpressions 了 吗 ? 
任何 用 到 .NET 正 则 对 象 的 VB 程序 都 必须 写 上 这 一 条 语句 ， 才 能 通过 编 


| 
CH 中 对 应 的 古 : 
using System.Text.RegularExpressions; //C# 中 应 这 么 写 
这 个 例子 说 明了 基本 的 正则 对 象 的 用 法 ， 下 面 两 行 主 要 行为 : 
Dim R as Regex = New Regex("\d+\wt") 编译 这 个 pattern 
Dim M as Match = R.match(SampleText) "应 用 到 字符 串 中 
也 可 以 合并 为 一 行 : 
Dim M as Match=Regex.Match (SampleText, "\d+\w+" ) ' 对 字符 
F hy H pattern 
eH HY Sik EE a A TEF i ASD, fe BS 
对 象 也 更 少 。 不 过 ， 它 的 效率 会 和 微 低 一 些 (432) 。 在 下 面 儿 页 


H, EMA Fc a SIRT AR, Aar EGE” PAL, Po UT PAS ER 
Regex.Match， 以 及 合适 的 使 用 时 机 。 
为 简便 起 抑 ， 在 程序 户 段 的 例子 中 ， 我 会 省 略 下 面 这 几 行 : 
Option Explicit On 
Option. SELCE Gn 
Imports System.Text.RegularExpressions 


本 书 的 第 96、99、204、219 和 237 页 出 现 过 VB 的 例子 ， 回 顾 它们 也 
许 有 所 帮助 。 


核心 对 象 概 哆 


Core Object Overview 

在 深入 细节 之 前 ， 先 来 看 看 .NET 的 正则 对 象 模型 。 对 象 模 型 是 一 套 
类 结构 ， 正 则 表达 式 的 各 种 功能 通过 它们 来 提供 。.NET 的 正则 功能 通过 
7 个 高 度 交 互 的 类 来 提供 ， 实 际 上 你 可 能 只 需要 理解 其 中 3 个 一 一 也 就 是 
下 一 页 的 图 9-1 所 示 的 3 个 类 一 一 即 可 ， 它 们 展示 了 对 “May 16， 
19988 EAMH \s+ (Cd+) 的 过 程 。 

Regex 对 象 

第 一 步 是 创建 Regex 对 象 ， 例 如 : 

Dim R as Regex=New Regex( " \s+(\d+) " ) 

在 这 里 ， 我 们 用 一 个 Regex 对 象 表示 \s+ AdO ,，， 将 其 傈 存在 变量 
R 中 。 获 得 Regex 对 象 之 后 ， 我 们 可 以 通过 Match (text) 方法 将 其 应 用 
到 一 段 文 本 ， 返 回 与 第 一 次 匹配 结 采 相关 的 信息 : 

Dim M as Match=R.Match( " May 16,1998 " ) 





"\s+(\d+)" 
构造 函数 
wag 


Regex 
ee Object 
Match ("May*16,#1998") 


Match.Empty 
Object 
Groups.Count 


Success 


' Groups (1) i Groups (1) 
Groups (0)| | Value Groups (0)| | Value ; 


Success 2 ' Success false 
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图 9-1: .NET 正 则 表达 式 相 关 对 象 模型 

Match 对 和 象 

Regex 对 象 的 Match C... 方法 通过 创建 并 人 运 回 Match 对 和 象 来 提供 匹 
配 信息 。Match 对 象 有 多 个 属性 ， 包 括 Success《〈 一 个 表示 匹配 是 仍 成 功 
的 Boolean 值 ) 和 Value《〈 如 果 匹 配 成 功 ， 则 保存 实际 匹配 文本 的 副 
本 ) 。 稍 后 我 们 会 看 到 Match 的 所 有 属性 的 列表 。 

Match 对 象 返 回 的 细 币 中 还 包括 捕获 型 括号 所 匹配 的 文本 。 前 面 Perl 
的 例子 使 用 $1 保 存 第 一 组 捕获 型 括号 匹配 的 文本 。.NET 提 供 了 两 种 办 
法 : 如 果 要 取得 纯 文 本 ， 可 以 按照 索引 值 访 问 Match 对 象 的 Groups 属 
性 ， 例 如 Groups〈1) .Value， 它 等 价 于 Perl 的 $1 OER, CH PIEH 


。 男 一 个 办 法 是 使 用 Result 方 法 ， 请 参考 第 429 
Y o 

Group 对 和 象 

前 一 段 中 的 Groups (1) 其 实 是 对 Group 对 象 的 引用 ， 后 面 的 .Value 
引用 它 的 Value 属 性 (也 就 是 此 分 组 对 应 的 文本 ) 。 每 一 组 捕获 型 括号 
都 对 应 一 个 Group 对 象 ， 男 外 还 有 一 个 “虚拟 分 组 (virtual group) ”， 其 
编写 为 0， 它 你 存 全 局 思 配 的 信息 。 
因此 ，MatchObj.Value 和 MatchObj.Groups (0) .Value 是 等 价 的 
都 是 全 局 岂 配 的 文本 的 副本 。 第 一 种 写法 更 加 人 简洁 方便 ， 但 我 们 必 
须知 道 存在 编写 为 0 的 分 组 ， 因 为 MatchObj.Groups.Count (也 就 是 Match 
关联 的 分 组 的 数目 ) CETE. WR st (d+) 能 够 匹配 成 功 ， 
MatchObj.Groups.Count 的 值 就 是 2 标号 为 0 的 全 局 匹配 和 $1)。 

Capture 对 象 

Capture 对 象 的 使 用 并 不 频 莹 ， 请 参考 第 437 页 的 介绍 。 

岂 配 时 会 计算 出 所 有 结果 

把 正则 表达 陈 应 用 到 字符 串 中 ， 得 到 一 个 Match 对 象 ， 此 时 所 有 的 
结果 《匹配 的 位 置 ， 每 个 捕获 分 组 瑟 配 的 内 容 等 ) 都 会 计算 出 来 ， 封 冯 
到 Match 对 象 中 。 访 问 Match 对 象 的 属性 和 方法 ， 包 括 它 的 Group 对 象 
(及 其 属性 和 方法 ) 只 是 取 回 已 经 计算 好 的 结果 。 





核心 对 象 详解 


Core Object Details 

MTC, KEMT. Hw FMR A U1 BE Regex 对 象 ， 然 后 
来 看 如 何 将 其 应 用 到 字符 串 ， 生 成 Match 对 象 ， 以 及 如 何 处 理 这 个 Match 
对 象 和 它 的 Group 对 象 。 

在 实践 中 ， 很 多 时 候 不 必 明 确 创建 Regex 对 象 ， 不 过 明确 创建 看 起 
来 更 顺眼 ， 上 所 以 在 讲解 核心 对 象 时 ， 每 次 都 会 创建 它们 。 稍 后 我 会 告诉 
你 .NET 提 供 有 的 简便 方法 。 

在 下 面 的 列表 中 ， 我 会 忽略 从 Object 类 继承 而 来 的 ， 很 少 用 到 的 方 
ee 


创建 Regex 对 象 


Creating RegexObjects 

Regex 的 构造 函数 并 不 复杂 。 它 可 以 接收 一 个 参数 〈 作 为 正则 表达 
式 的 字符 串 ) ， 或 者 是 两 个 参数 〈 一 个 正则 表达 式 和 一 组 选项 ) 。 下 面 
征 一 个 参数 的 例子 : 

Dim StripTrailWS=new Regex ( "\s+$" ) ' 去 掉 结 尾 的 空白 字符 

它 只 是 创建 Regex， 做 好 应 用 前 的 准备 ， 而 没有 进行 任何 匹配 。 

下 和 面 是 使 用 两 个 参数 的 例子 : 

Dim GetSubject=new Regex( " Asubject:(. * ) 
" ,RegexOptions.I gnoreCase) 

这 里 多 出 了 一 个 RegexOptions 先 项， 不 过 可 以 用 OR 运 算 符 连接 多 个 
选项 ， 例 如 : 
Dim GetSubject = new Regex("“subject: (.*)", _ 

RegexOptions.IgnoreCase OR RegexOptions.Multiline) 

4 ARE 

OR IEMA SUA MIRA, MAE 
ArgumentException. iw% WRH P Awe PEH AY IE WU Aer SU a IE aS 
THE, BLA Bet R IS Toei, DITOR BEARER ob? Cpa AP 
和 输入， 或 者 从 配置 文件 谈 入 ) 的 正则 表达 式 ， 束 必须 捕获 这 个 异常 。 


Dim R As Regex 
Try 
R = New Regex (SearchRegex) 
Catch e As ArgumentException 
Console.WriteLine("*ERROR* bad regex: " & e.ToString) 
Exit Sub 
End Try 
WIR, WRAAE, FE por Be A Je AY Be m ZEA TB] AY 
UR AY RE mi Sete TT AI ARH, Tf ANA E 2 A A gE aS o 
Regex 选 项 
在 创建 Regex 对 象 时 ， 可 以 使 用 下 面 的 选项 : 
RegexOptions.IgnoreCase 
此 选项 表示 ， 在 应 用 正则 表达 式 时 ， 不 区 分 大 小 号 ( 寺 110) 。 
RegexOptions.lgnorePatternWhitespace 
此 选项 表示 ， 正 则 表达 式 应 该 按照 日 由 格式 和 注释 模式 (过 111) 
来 解 林 。 如 末 使 用 单纯 的 '#.… 注释 ， 请 确认 在 每 一 个 逻辑 行 的 末尾 部 
有 换行 从， 否则 第 一 处 注释 会 “注释 挥 * 之 后 的 整个 正则 表达 式 。 
在 VB.NET 中 ， 我 们 可 以 用 chr (10〉 来 实现 ， 例 如 : 


Dim R as Regex = New Regex( | 


" 匹配 一 个 浮 点 数 ... "& chr(10) & | 
E \d+(?:\.\d*) ? # 开头 是 整数 部 分 . . . "è chr(10) & | 
"| t RE me. "& chr(10) & _ 
" \.\d+ # 开头 是 小 数 点 "， _ 


RegexOptions.IgnorePatternWhitespace) 
XR A; VB.NET S EER C? #...) 注释: 


Dim R as Regex = New Regex( | 


" (?# 匹 配 一 个 浮 点 数 ... LE S 
" \d+(?:\.\d*)?  (?# 开 头 是 整数 部 分 ,.， )" & 
" | 人 y" & 
-E Aa ye (24 FF Ke) BR )", 


RegexOptions.IgnorePatternWhitespace) 


RegexOptions.Multiline 
PEED ARAN, TEM RETA SUE AA IN DO FER EST CS 
112) . EWE, A 和 '$ 能 够 匹配 字符 串 内 部 的 换行 竺 ， 而 不 仅仅 是 
匹配 整个 字符 串 的 开头 和 结尾 。 


RegexOptions.Singleline 

Erie aN, ITEM AA SEA A SES Csr 111) 。 此 时 点 号 
能 够 匹配 任意 字符 ， 也 包括 换行 符 。 

RegexOptions.ExplicitCapture 

此 选项 表示 ， 普 通 括 号 '(...)  ， 在 正常 情况 下 是 捕获 型 括 写 ， 但 
此 时 不 捕获 文本 ， 而 是 与 ! (? : ...) 一 样 ， 只 分 组 ， 不 捕获 。 此 时 只 
有 命名 捕获 括号 '(? <name>...) 能 够 捕获 文本 。 

如 朵 使 用 了 命名 分 组 ， 叉 布 望 使 用 非 捕 获 型 括 写 来 分 组 ， 束 可 以 使 
用 正常 的 '(...) ,括号 和 此 选项 ， 这 样 程序 看 起 来 更 清晰 。 

RegexOptions.RightToLeft 

Pee aN, BET MAAC AULA (5411) 。 

RegexOptions.Compiled 

此 选项 表示 ， 正 则 表达 式 应 该 在 实际 应 用 时 被 编 详 ， 成 为 融 度 优化 
的 格式 ， 这 样 通 币 会 大 大 提高 匹配 速度 。 不 过 这 样 会 增加 第 一 次 使 用 时 
的 编 详 时 间 ， 以 及 程序 执行 期 间 的 内 存 占 用 。 

如 果 正 则 表达 式 只 需要 应 用 一 次 ， 或 者 应 用 并 不 是 很 频 粽 ， 就 没 必 
要 使 用 Regex Options.Compiled， 因 为 即使 这 个 Regex 对 象 已 经 家 回收 ， 
多 占 的 内 存 也 不 会 释放 。 不 过 如 有 果 正 则 表达 式 在 对 时 间 要 求 很 高 的 场合 
应 用 ， 这 个 选项 可 能 非常 有 价值 。 

在 第 237 页 的 例子 中 ， 使 用 这 个 选项 减少 了 大 约 一 半 的 测试 时 间 。 
还 可 以 参考 天 于 编 详 到 北 配 件 (assembly〉 的 讨论 (5434) 。 

RegexOptions.ECMAScript 

此 选项 表示 ， 正 则 表达 式 应 该 按照 ECMAScript (5412) 兼容 方式 
iat WRA ZEECMAScript, Baa Aim BARA C, ATLA eA 

RegexOptions.None 

CRIN UC UR eI”, ERM RegexOptionn tEh], WR a 
要 指定 选项 ， 可 以 使 用 它 。 也 可 以 用 OR 来 连接 其 他 硕 望 使 用 的 选项 。 


使 用 Regex 对 象 
Using RegexObjects 


FERC SERS VARA, Regex A HY, PEETRE SSE 
际 的 应 用 : 


RegexObj .IsMatch (target) Return type: Boolean 
RegexObj.IsMatch (target, offset) 


ISMatch 方 法 把 目标 正则 表达 式 应 用 到 目标 字符 串 ， 人 返回 一 个 
Boolean 值 ， 表 示 [ 允 配 答 试 是 否 成 功 ， 这 里 有 个 例子 : 
Dim R as RegexObj = New Regex ("^\s*$") 


If R.IsMatch (Line) Then 
' 如 采 行 为 空 ... 
i 
如 果 提 供 了 offset (一 个 整数 ) ， 则 第 一 次 尝试 会 从 对 应 的 偏 移 值 
开始 。 
RegexObj .Match (target) Return type: Match object 


RegexObj .Match (target, offset) 
RegexObj .Match (target, offset, maxlength) 


Match 77 YAE IE Zea sh AS BI] Bp BA, KB] —~Matchxt 
象 。 通 过 这 个 Match 对 象 可 以 得 询 匹配 结果 的 信息 《是否 匹配 成 功 ， 捕 
获 的 文本 等 等 ) ， 初 始 化 此 正则 表达 式 的 “下 一 次 ”区 配 。Match 对 象 的 
细节 见 第 427 页 。 
如 果 提 供 了 offset (一 个 整数 ) ， 则 第 一 次 尝试 会 从 对 应 的 偏 移 值 
人 
Ho 


FF 

如 果 提 供 了 maxlength 参 数 ， 会 进行 特殊 模式 的 匹配， 从 offset 开 始 
的 字符 开始 计算 ， 正 则 引擎 会 把 maxlength 长 度 的 文本 当 作 整个 目标 字 
休 串 ， 假 设 此 范围 之 外 的 字符 都 不 和 存在， 所 以 此 时 信 能 够 匹配 原来 的 
目标 字符 串 中 的 offset 位 置 ，'$ 能 够 匹配 之 后 maxlength 个 字符 的 位 置 。 
同样 ， 环 视 结 构 不 能 “ 感 党 到 ”此 范围 之 外 的 字符 。 这 与 提供 offset 有 很 大 
不 同 ， 如 末 只 提供 了 offset， 受 影响 的 只 是 传动 痛 置 开始 应 用 正则 表达 
式 的 位 置 一 一 正则 引擎 仍然 能 够 “看 到 ?完整 鸭 目标 字符 串 。 

下 面 表 格 中 的 例子 比较 了 offset 和 maxlength 的 意义 : 





再 用 万 法 以 下 列表 达 式 RegexObj 的 结果 


RegexObj Match ("May 16,1998") 失败 


RegexObj .Match ("May 16,1998", 9) 失败 失败 
RegexObj .Match("May 16,1998", 9, 2) 匹配 “99 


RegexObj .Matches (target) Return type: MatchCollection 
RegexObj .Matches (target, offset) 


Matches 方 法 类 似 Match 方 法 ， 只 是 Matches 方 法 返回 一 组 Match 对 
象 ， 代 表 目 标 字 符 串 中 的 所 有 匹配 结果 ， 而 不 是 第 一 次 的 匹配 结果 。 返 
加 的 对 象 为 MatchCollection 。 

人 例如， 初始 化 代码 如 下 : 


Dim R as New Regex("\w+") 
Dim Target as String = "a few words" 


下 面 的 程序 : 


Dim BunchOfMatches as MatchCollection = R.Matches (Target) 
Dim I as Integer 
For I = 0 to BunchOfMatches.Count - 1 
Dim MatchObj as Match = BunchOfMatches.Item(I) 
Console.WriteLine("Match: " & MatchOb7.Value) 
Next 


运行 结果 是 : 
Match: a 
Match: few 
Match: words 
下 面 的 程序 输出 同样 的 结果 ， 它 说 明 ，MatchCollection 对 象 可 以 一 
次 分 配 整 个 Match-Collection。 
Dim MatchObj as Match 
For Each MatchObj in R.Matches (Target) 


Console.WriteLine("Match: " & MatchObj.Value) 
Next 


作为 比较 ， 下 面 的 代码 也 可 以 达到 同样 的 效果 ， 使 用 Match 〈 而 不 
是 Matches ) 方法 : 


Dim MatchObj as Match = R.Match (Target) 

While MatchObj.Success 
Console.WriteLine("Match: " & MatchObj.Value) 
MatchObj = MatchOb7.NextMatch () 

End While 


RegexObj.Replace (target, replacement) Return type: String 
RegexObj .Replace (target, replacement, count) 
RegexObj .Replace (target, replacement, count, offset) 


Replace T ERE H FFF PRET BA K-K, wE CA RECA 
变化 的 ) 字符 串 副 本 。 它 应 用 的 是 Regex 对 象 的 正则 表达 式 ， 返 回 的 不 
是 Match 对 象 ， 而 是 蔡 换 的 结果 。[ 允 配 的 文本 补 什 么 内 容 丛 换 ， 取 决 于 
replacement 参 数 。replacement 参 数 可 以 重 载 : 它 可 以 古 一 个 字符 串 ， 世 
可 以 是 MatchEvaluator 委 托 (delegate) 。 如 果 replacement 是 一 个 字符 
ty ERRE PRITA EAN Wo BET A PL: 

Dim R CapWord as New Regex ("\b[A-Z] \w*") 


Text = R CapWord.Replace(Text, "<B>$0</B>") 

把 每 一 个 大 写 单词 两 边 加 上 <B>...</B>。 

如 果 设 置 了 count， 就 只 会 进行 count 次 蔡 换 (默认 情况 是 进行 所 有 
ae) 。 如 果 只 和 硕 望 将 换 第 一 次 匹配 ， 可 以 将 count 设 置 为 1。 如 果 我 
们 知道 只 会 有 一 次 匹配 ， 把 count 明 确 设置 为 1 的 效率 会 更 高 ， 因 为 不 
再 要 对 字符 串 的 其 他 部 分 进行 租 找 和 处 理 。 把 count 设置 为 -1 表示 “所 有 
下 配 都 必须 蔡 换 ”( 它 等 价 于 没有 设置 count)。 

如 果 设 置 了 ”offset (一 个 上 整数) ， 则 应 用 正则 表达 式 时 ， 目 标 字符 
串 中 对 应 数目 的 字符 会 被 忽略 。 这 些 忽略 的 字符 会 直接 被 复制 到 结果 


中 。 
例如 ， 这 段 代 但 会 云 返 多 余 的 空 日 字符 《也 驶 是 将 连续 的 多 个 空 日 
字符 和 谷 换 为 单个 空格 ) : 

Dim AnyWS as New Regex ("\s+") 


Target = AnyWS.Replace(Target, " ") 


some: random: -spacing #% #4 4 Ay ‘some-random:spacing’. F M 


AWARE, Ae 2s PRES TT FPA ES BA I T. 


Dim AnyWS as New Regex("\st") 
Dim LeadingWS as New Regex("*\st") 


Target = AnyWS.Replace(Target, " ", -1, LeadingWS.Match (Target) .Length) 


EZE some random: spacing FRM, 
JH- -some'random'spacing’, EARME, €H LeadingWS/LAC 
文本 的 长 上 度 作 为 偏 移 值 〈( 就 是 要 跳 过 的 字符 数目 ) 。 这 里 用 到 了 Match 
对 象 的 简便 特性 ， 即 LeadingWS.Match (Target) 的 Length 属 性 〈 即 便 失 
败 也 没 问 题 ， 此 时 Length 的 值 为 0， 也 融 是 说 我 们 需要 对 整个 目标 字符 
串 应 用 AnyWS) 。 


特殊 的 Replacement 处 理 


Regex.Replace 方法 和 Match.Result 方法 都 可 以 接收 能 够 进行 特殊 处 理 的 
replacement 字符 串 。 下 面 的 字符 序列 会 被 匹配 的 文本 所 替换 ， 


字符 序列 替换 内 容 


$6 整个 表达 式 匹 配 的 文本 (等 于 $0) 

Bh, 82 ws 对 应 编号 的 捕获 分 组 匹配 的 文本 
对 应 命名 捕获 分 组 匹配 的 文本 
目标 字符 串 中 匹配 文本 之 前 的 文本 


目标 字符 串 中 匹配 文本 之 后 的 文本 

单个 “$ ”字符 

整个 原始 目标 字符 串 的 副本 

见 说 明 
目前 ，$+ 几 乎 是 没有 用 的 。 它 源 自 Perl 中 的 $+ 变量 ， 即 实际 参与 匹配 的 捕获 型 括号 中 
编号 最 大 的 那个 (第 202 页 有 一 个 例子 )。 而 .NET 的 replacement 字符 囊 中 的 $+ 只 是 引 
用 正则 表达 式 中 最 靠 后 的 那个 捕获 型 括号 匹配 的 文本 。 因 为 捕获 型 括号 会 重新 编号 一 
一 在 使 用 命名 型 捕获 时 ， 会 自动 进行 这 种 操作 (409)， 所 以 它 基本 没有 用 。 
除了 上 面 的 情况 之 外 ， 任 何 情况 下 在 replacement F PPRA $ MSRP A, 





使 用 replacement 委 托 

replacement 参数 不 只 能 用 简单 字符 串 ， 还 可 以 是 委托 〈delegate， 
fa) UE RAS ET) 。 代 理 函 数 在 每 次 匹配 之 后 调用 ， 生 成 作为 
replacement 的 文本 。 因 为 这 个 函数 能 够 进行 我 们 需要 的 任何 处 理 ， 这 种 
AR SF PRAY DL tl DD BSE A RK o 

委托 的 类 型 是 MatchEvaluator， 每 次 匹配 都 会 调用 。 它 所 引用 的 函 
数 必 须 接受 Match 对 象 ， 进 行 你 所 需要 的 任何 处 理 ， 人 返回 作 为 
replacement 的 文本 。 

做 个 比较 ， 下 面 两 段 程序 输出 同样 的 结果 : 


Target = R.Replace (Target, "<<$&>>")) 


Function MatchFunc(ByVal M as Match) as String 
return M.Result ("<<$&>>") 
End Function 
Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Penn 


Target = R.Replace(Target, Evaluator) 


PY BRE ABA <<... > >EE CAS. (EAA ZEFE HN EME T 
在 计算 replacement 时 我 们 可 以 进行 任意 复杂 的 操作 。 下 面 的 例子 把 摄氏 
温度 转换 为 华氏 温度 : 
Function MatchFunc(ByVal M as Match) as String 
' 从 $1 获得 温度 数值 ， 转 换 为 华氏 温度 
Dim Celsius as Double = Double.Parse(M.Groups (1) .Value) 
Dim Fahrenheit as Double = Celsius * 9/5 + 32 
Return Fahrenheit & "F" ' 添 加 "F"， 然 后 返回 
End Function 


Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Dim R Temp as Regex = New Regex("(\d+)C\b", RegexOptions.IgnoreCase) 
Target = R Temp.Replace(Target, Evaluator) 


WER AF Pee ‘Temp is 37C’, ERREN Temp is 
98.6F.’ 。 


RegexObj.Split (target) Return type: array of String 
RegexObj.Split (target, count) 
RegexObj.Split (target, count, offset) 


Split 方法 将 目标 正则 表达 式 应 用 于 目标 字符 串 ， 返 回 由 各 匹配 分 隔 
的 字符 串 数组 。 如 下 面 这 个 例子 所 示 ; 


Dim R as New Regex("\.") 
Dim Parts as Oring) = Rvsplatcy" 209.204 .146,.22") 


R.Split 返 回 包含 四 个 字符 串 的 数组 C209, ‘204’, 1467022) , 
它们 由 个 在 目标 字符 串 中 的 三 次 匹配 来 分 隔 。 

如 果 提 供 了 count 参 数 ， 则 至 多 返回 count 个 字符 串 〈( 除 非 使 用 了 捕 
SRA TES = 说 到 这 个 问题 ) 。 如 果 没 有 提供 count，Split 返 回 所 
有 匹配 分 隅 的 字符 串 。 提供 count 的 意思 是 ， 正则 表达 式 可 能 在 找到 最 
终 匹 配 之 前 停止 应 用 ， 奉 果真 如 此 ， 数 组 中 最 后 的 元 素 束 是 目标 字符 串 
中 余下 的 部 分 。 

Dim R as New Regex("\.") 

Dim Parts as String() = R.Spliti"209.204.146.22", 2) 


此 时 ，Parts 得 到 两 个 字符 串 ，‘209? 和 204.146.22’。 
如 果 设 置 了 offset (一 个 整数 ) ， 则 正则 表达 式 的 匹配 尝试 从 对 应 
编写 的 字 从 开始 。 前 面 的 offset 个 字符 会 作为 数组 的 第 一 个 元 系 返 回 
(如 果 设 置 了 RegexOptions.RightToLeft， 就 会 作为 最 后 一 个 元 素 ) 。 
在 Split 中 使 用 捕获 型 插 己 
如 果 出 现 了 任何 形式 的 捕获 型 括号 ， 数 组 中 通 肖 会 包含 额外 的 捕获 
文本 (也 有 些 情 况 下 根本 不 会 包含 ) 。 来 看 个 简单 的 例子 ， 要 拆 分 字符 
FA ‘2006-12-31? Bk zÆ ‘04/12/2007’, 你 可 能 会 使 用 [-/],: 
Dim R as New Regex("[-/]") 
Dim Parts as String() = R.Split(MyDate) 


结果 包含 3 个 元 素 GASB) 。 不 过 ， 使 用 捕获 型 括号 的 正则 
表达 式 '〈[-/，])，， 则 会 返回 5 个 字符 串 : WRMyDate tg 2006-12- 
这 5 个 元 素 是 ‘2006;、‘-”、‘12*、‘-*、‘31?。 多 出 来 的 和 -' 是 每 次 捕获 
$1。 

如 果 有 多 组 捕获 型 括 写 ， 它 们 会 按照 编写 排 友 (也 就 是 说 ， 所 有 的 
命名 捕获 跟随 在 未 命名 捕获 之 后 二 409) 。 

只 要 实际 参与 了 匹配 捕获 型 括号 的 捕获 型 括号 ， 都 会 包含 在 Split 的 

结果 中 。 不 过 ， 目 前 的 .NET 有 一 个 bug， 即 如 果 某 组 捕获 型 括号 没有 参 


EAT Jn y SESE Jes WT RE SS AB AN oe EI IB A BR 


KAT Mi A PI, BOER WAC A Be HH Ls AES PE 
Aor ba, 1 A248 AA He SE ZG RP. H (s+) ? ， 

Qs+) ? 分 隅 ‘this+:，…that*， 得 到 四 个 字符 串 “this*、“*”、 和 “和 ‘that”。 

但 是 ， 如 果 目 标 字 符 串 为 ‘this，:that*， 因 为 第 一 组 捕获 型 括号 没有 参与 
最 终 死 配 ， 所 有 的 捕获 型 括号 都 不 包含 在 最 终结 果 中 ， 所 以 只 会 返回 两 
个 字符 串 ‘this’* 和 that?。 无 法 预知 到 搬 会 运 回 多 少 字 从 串 ， 是 当前 版 本 

的 .NET 的 一 个 重大 问题 。 

在 这 个 例子 中 ， 我 们 可 以 使 用 ”Csx ) ， Asx) RAXA i 
(这 样 两 个 分 组 一 定 都 能 参与 匹配 ) 。 不 过 ， 更 复杂 的 表达 式 就 没 这 人 么 
容 多 改写 了 。 

RegexObj .GetGrouPNames () 

RegexObj .GetGroupNumbers () 

RegexObj .GroupNameFromNumber ( number ) 
RegexObj .GroupNumberFromName( name ) 


XILDIR FHA EWR nS CA A a, QR ee i A 
aR, TAWA) 的 捕获 型 分 组 的 信息 。 它 们 引用 的 不 是 特定 的 匹配 
内 容 ， 只 是 正则 表达 式 中 存在 的 分 组 的 名 字 和 编号。 下 和 面 的 补充 内 容 说 
明了 使 用 方法 。 

RegexObj .ToString () 
RegexObj .RightToLeft 
RegexObj . Options 

这 几 个 方法 容许 用 户 查 询 Regex 对 象 本 喘 《〈 而 不 是 将 此 对 象 应 用 到 
FIFRE) 的 信息 。ToString O 方法 返回 正则 表达 陈 构 造 函 数 接收 的 
FTP. RightToLeft ”属性 返回 一 个 Boolean 值 ， 表 明 它 是 否 局 用 了 
RegexOptions.RightToLeft 选 项 。Options 属 性 返回 与 此 正则 表达 式 相 关 的 
RegexOptions。 下 和 耐 说 明了 各 个 选项 的 值 ， 把 对 应 选项 的 值 相 加 ， 束 得 


到 返回 结果 。 
0 None 16 Singleline 
1 IgnoreCase 32 IgnorePatternWhitespace 
2 Multiline 64 RightToLeft 
4 ExplicitCapture 256 ECMAScript 
8 Compiled 


这 里 没有 128， 因 为 它 用 于 微软 内 部 的 调试 ， 疫 有 出 现在 最 终 产 品 


中 。 
补充 内 容 给 出 了 这 些 方 法 的 应 用 实例 。 


使 用 Match 对 象 


Using MatchObjects 

有 三 种 方法 创建 Match 对 象 : Regex 的 Match 方 法 、 静 态 函 数 
Regex.Match 〈 稍 后 介绍 ) 和 Match 对 象 目 己 的 NextMatch 方 法 。 它 封装 
菏 个 正则 表达 式 的 捍 次 应 用 的 所 有 相关 信息 。 其 属性 和 方法 如 下 : 

MatchObj.Success 

返回 一 个 Boolean 值 ， 表 示 匹 配 是 人 否 成 功 。 如 采 不 成 功 ， 则 返回 一 
个 静态 的 Match.Empty 对 象 (1433) 。 


MatchObj .Value 
MatchObj .ToString () 


CRH SE PVE AC AS YY I AS 


TER Regex 对 象 的 信息 


这 段 代 码 显示 了 Regex 对 象 R 的 信息 
' 显 示 关 于 Regex ER 的 已 知 信息 


Console.WriteLine ("Regex is: " & R.ToString()) 
Console.WriteLine ("Options are: " & R.Options) 
If R.RightToLeft 

Console.WriteLine("Is Right-To-Left: True") 
Else 

Console.WriteLine("Is Right-To-Left: False") 
End If 


Dim S as String 
For Each S$ in R.GetGroupNames () 
Console.WriteLine("Name """ & S & """ is Num #" & _ 
R.GroupNumberFromName (S) ) 
Next 
Console.WriteLine ("---") 
Dim I as Integer 
For Each I in R.GetGroupNumbers () 
Console.WriteLine("Num #" & I & "is Name """ & _ 
R.GroupNameFromNumber (I) & """") 
Next 


再 执行 一 次 ， 用 下 面 的 方法 创建 Regex 对 象 ; 
New Regex ("* (\wt) ://([*/]+) (/\S*)") 
New Regex ("^ (?<proto>\wt) :// (?<host>[*/]+) (?<page>/\S*)", 
RegexOptions.Compiled) 
得 到 下 面 的 结果 (为 过 应 排版 ， 有 个 正则 表达 式 省 略 了 后 半 段 ) 


Regex is: ^(\w+)://([^/]+) (/\S*) Regex is: *(?<proto>\wt) ://(?<host> ... 


Option are: 0 Option are: 8 

Is Right-To-Left: False Is Right-To-Left: False 
Name "0" is Num #0 Name "0" is Num #0 

Name "1" is Num #1 Name "proto" is Num #1 
Name "2" is Num #2 Name "host" is Num #2 
Name "3" is Num #3 Name "page" is Num #3 
Num #0 is Name "0" Num #0 is Name "0" 

Num #1 is Name "1" Num #1 is Name "proto" 
Num #2 is Name "2" Num #2 is Name "host" 


Num #3 is Name "3" Num #3 is Name "page" 


MatchObj.Length 

R [A] SE PRVLAC CASA EE 

MatchObj. Index 

返回 一 个 整数 ， 显 示 匹 配 文本 在 目标 中 的 起 始 位 置 。 编 亏 从 0 开 
台 ， 所 以 这 个 数字 表示 从 目标 字符 串 的 开头 《最 左边 ) 到 匹配 文本 的 开 
k REL) 的 长 度 。 即 使 在 创建 Match 对 象 时 设置 了 
RegexOptions.RightToLeft， 回 值 也 不 会 变化 。 

MatchObj.Groups 

此 属性 是 一 个 GroupCollection 对 象 ， 其 中 封装 了 多 个 Group 对 象 。 
它 是 一 个 普通 的 集合 类 Collection) ， 包 含 了 Count 和 Item 属 性 ， 但 是 
最 第 用 的 办 法 还 是 按照 索引 值 访问 ， 取 出 对 应 的 Group 对 象 。 例 如 ， 
M.Groups (3) 对 应 第 3 组 捕获 型 括号 ，M.Groups (" HostName " ) 对 
应 命名 捕获 “HostrName”( 正 则 表达 式 中 的 ' (? <HostName 
ud eS 

在 C# 中 ， 使 用 M.Groups[3] 和 M.Groups[ " HostName " ]. 

编写 为 0 的 分 组 表示 整个 正则 表达 式 匹 配 的 所 有 文本 。 
MatchObj.Groups (0) .Value 等 价 于 MatchObj.Value。 

MatchObj.NextMatch() 

NextMatch O 方法 将 正则 表达 式 应 用 于 目标 字符 串 ， 寻 找 下 一 个 
VLA, IRISH Match 对 象 。 

MatchObj.Result(string) 

string 古 一 个 特殊 的 序列 ， 按 照 第 424 页 补充 内 容 的 介绍 来 处 理 ， 返 
回 结 条 文本 。 这 里 有 个 徐 单 例子 : 

Dim M as Match = Regex.Match(SomeString, "\wt") 

Console.WriteLine(M.Result ("The first word is ’S&’") ) 


下 面 的 程序 可 以 依次 匹配 内 容 左 侧 和 右 侧 文本 的 副本 
M.Result ("S$") ' 这 是 匹配 内 容 左 侧 的 文本 
M.Result ("$") ' 这 是 匹配 内 容 右 侧 的 文本 
调试 时 可 能 需要 显示 攻 些 和 行 有 关 的 信息 : 
M.Result ("[$*<$S&>$’]") ) 
WRF \d+ 应 用 到 ‘May 16，1998’ 得 到 的 Match 对 象 ， 返 回 的 


是 ‘May 过 16 之 ，1998:， 这 清楚 地 体现 了 匹配 文本 。 
MatchObj.Synchronized() 


于 多 线程 使 用 。MatchObj.Captures 
Captures 属 性 并 不 党 用， 参见 第 437 页 的 介绍 。 


使 用 Group 对 象 


Using GroupObjects 

Groups! 4,4 — ZA tH aR ta Ss COURS Ss 720, BAAN TILA) 
的 信息 。 其 属性 和 方法 如 下 : 

GroupObj.Success 

它 返 回 一 个 Boolean 值 ， 表 明 此 分 组 是 否 参与 了 匹配 。 并 不 是 所 有 
的 分 组 都 必须 “参与 ?成 功 的 全 局 匹配 。 如 采 ' Chis) | had 能 够 成 功 
匹配 ， 肯 定 有 一 个 分 组 能 参与 匹配 ， 另 一 个 不 能 。 第 139 页 的 脚注 中 有 
Fr lies 

GroupObj .Value 
GroupObj .ToString () 

on OO FR VERA TA, MT [el AF 
付 中 。 
GroupObj.Length 
返回 本 分 组 捕获 文本 的 长 度 。 如 果 匹 配 不 成 功 ， 则 返回 0。 
GroupObj.Index 
I |B] 7S EB, ARAN ASG} ATR CAME A SEAT oF 
号 从 0 FR, ATE ize A A terre IPS CREL BUF AR CASH 
Fk RAL) 的 长 度 《〈 即 使 在 创建 Match 对 象 时 设置 了 
RegexOptions.RightToLeft， 结 果 仍 然 不 变 ) 。 

GroupObj.Captures 

请 参考 第 437 页 Group 对 象 的 Capture 属 性 。 


Fit as ETE” PR BY 


Static" Convenience’ Functions 
在 第 413 页 的 “正则 表达 式 快 速 入 门 ” 中 己 经 看 到 ， 我 们 并 不 需要 每 
人 次 部 显 式 地 创建 Regex 对 象 。 我 们 可 以 通过 下 面 的 前 态 疯 数 直 接 使 用 下 
则 表达 式 : 
Regex.IsMatch(target, pattern) 
Regex.IsMatch(target, pattern, options) 


Regex.Match(target, pattern) 
Regex.Match(target, pattern, options) 


Regex.Matches (target, pattern) 
Regex.Matches (target, pattern, options) 


Regex.Replace (target, pattern, replacement) 
Regex.Replace(target, pattern, replacement, options) 


Regex.Split(target, pattern) 
Regex.Split(target, pattern, options) 


其 实 它 们 不 过 是 包 攻 了 已 经 介绍 的 主要 的 Regextia K AOA IE 
己 。 它 们 会 临时 创建 一 个 Regex 对 象 ， 用 它 来 调用 请 求 的 方法 ， 然 后 工 
用 这 个 对 象 〈 其 实 并 没有 莽 用 ， 稍 后 介绍 这 里 有 个 例子 : 
If Regex.IsMatch(Line, "^NS*9™) 


Dim TemporaryRegex = New Regex("*\s*$") 
If TemporaryRegex.IsMatch (Line) 


或 者 》 更 确切 地 说 是 ° 
If New Regex("*\s*S") .IsMatch (Line) 


AEH EE EGE PRI PET, SA SST So E TA J MT Be A 
Ath FAG EC EG PR TRA C95) ， 坏 处 在 于 每 次 调用 都 必须 重新 检查 
pattern 字 人 符 串 。 

如 果 在 整个 程序 的 执行 过 程 中 ， 正 则 表达 式 只 用 到 1 次 ， 束 不 需要 


竹 碟 便捷 数 的 效率 问题 。 但 是 ， 如 条 需 要 应 用 多 次 《例如 在 循环 中 ， 
或 者 是 频 吗 调用 的 函数 中 ) ， 每 次 准备 正则 表达 式 部 二 要 代价 (二 
241) 。 创建 Regex 对 象 ， 然 后 重复 使 用 的 主要 原因 之 一 融 是 ， 使 用 便 
捷 函 数 的 效率 太 低 。 不 过 ， 下 一 市 将 告诉 我 们 ，.NET 提 代 了 一 种 很 好 的 
解决 办 法 : 菩 具 面 癌 对 象 的 效率 和 函数 式 处 理 的 便捷 。 


正则 表达 式 绥 存 


Regex Caching 

为 简单 的 正则 表达 式 构建 并 管理 Regex 对 象 很 不 方便 ， 所 以 .NET 的 
正则 包 提 供 了 各 种 静态 方法 。 但 这 些 静 态 方 法 存在 效率 缺陷 ， 即 每 次 调 
用 都 需要 创建 临时 的 Regex 对 象 ， 应 用 它 ， 然 后 乔 用 。 如 条 在 循环 中 需 
要 多 次 应 用 同样 的 正则 表达 式 ， 束 需要 进行 许多 不 必要 的 工作 。 

为 了 避免 重复 的 工作 ，.NET Framework 能 够 缓存 静态 方法 创建 的 临 
时 变量 。 第 6 章 己 经 大 致 介绍 过 绥 存 〈 到 244) ， 人 简单 地 说 ， 绥 存 的 意思 
就 是 如 果 你 希望 在 静态 方法 中 使 用 “最 近 ” 使 用 过 的 正则 表达 式 ， 此 方法 
融会 重用 之 前 创建 的 正则 对 象 ， 而 不 是 重新 创建 一 个 新 对 象 。 

“最 近 ” 的 默认 意义 是 缓存 15 个 正则 表达 式 。 如 果 循 环 中 使 用 的 正 
则 表达 式 超过 15 个 ， 则 第 16 个 正则 表达 式 会 取代 第 1 个 ， 所 以 进入 下 一 
轮 循环 时 ， 第 一 个 正则 表达 式 已 经 不 在 缓存 中 ， 必 须 重 新 生成 。 

如 条 默认 什 15 太 小 ， 可 以 这 样 调整 ; 

Regex.CacheSize=123 

如 果 布 望 共 用 缓存 ， 可 以 将 其 设置 为 0。 


SL FF PKI BL 


Support Functions 

除了 之 前 讨论 过 的 便捷 函数 ， 还 有 一 些 静 态 的 文 持 图 数 : 

Regex.Escape(string) 

Regex.Escape (...) 返回 此 字符 串 的 副本 ， 其 中 的 元 字符 会 进行 转 
Xo TEAR BHA SPF E a BE HS PE A SCT GE EURIE AEH o 

例如 ， 如 末 用 户 的 输入 保存 在 字符 串 SearchTerm 中 ， 我 们 可 以 这 样 
构建 正则 表达 式 \: 

Dim UserRegex as Regex = New Regex("“" & Regex.Escape (SearchTerm) & "$", _ 
RegexOptions.IgnoreCase) 

XIF FLA CF AN SS RE RAO WR NFR BZ 
FAP MIA Ss: -) ?, Bee oOH AreumentExceptions: e (3419) 。 

Regex.Unescape(string) 

这 个 函数 有 扣 琳 怪 ， 它 接收 一 个 字符 串 ， 返 回 此 字符 串 的 副本 ， 不 
过 要 处 理 其 中 的 元 字 从 ， 去 挥 其 他 的 反 和 针线。 如 果 输 入 的 是 入: \-\) ”， 
返回 值 束 是 ‘，-) ’. 

字符 缩 略 表示 法 也 会 被 解 全。 接收 的 字符 种 中 的 Am 会 被 将 换 为 换 
行 符 ，^\u1234’ 会 被 蔡 换 为 对 应 的 Unicode 字 符 。 第 407 页 列 出 的 所 有 字 
AF ABMS ZEN IZ AB SS BA 

我 想象 不 出 Regex.Unescape 有 多 么 重要 的 价值 ， 不 过 了 解 转 义 规定 
的 用 户 也 许 能 把 它 当 作 生 成 VB 字符 串 的 通用 工具 。 

Match.Empty 

此 函数 返回 代表 匹配 失败 的 Match 对 象 。 它 的 用 处 可 能 在 于 ， 如 果 
初始 化 的 未 个 Match 对 象 将 来 不 一 定 会 被 用 到 ， 但 叉 必 须 能 够 得 询 。 这 
里 有 个 简单 的 例子 : 


Dim SubMatch as Match = Match.Empty ! 初 始 化 一 个 Match， 但 下 面 不 一 定 会 设 定 


Dim Line as String 
For Each Line in EmailHeaderLines 
' 如果 这 是 标题 ， 保 存 匹 配 的 信息 .,， 
Dim ThisMatch as Match = Regex.Match(Line, "*Subject:\s*(.*)", 
RegexOptions.IgnoreCase) 


If ThisMatch.Success 
SubMatch = ThisMatch 
End If 


If SubMatch.Success 

Console.WriteLine (SubMatch.Result ("The subject is: $1")) 
Else 

Console.WriteLine("No subject!") 
End If 


如 果 字 符 串 数组 EmailHeaderLines 没 有 任何 行 〈 或 者 没 有 Subject 
行 ) ， 程 序 中 的 循环 就 不 会 设置 SubMatch， 如 果 SubMatch 没 有 初始 
Mh, WAZ Ja he SubMatch2244 2) —4 28 5] does. ARTA AA 
Match.Empty 来 切 始 化 就 很 方便 。 

Regex.CompileToAssembly(...) 

它 容 许 用 户 创造 一 个 闭 配 件 Cassembly) ， 封 闭 正 则 表达 式 
Ts 


参 





NETH Z ih eh 


Advanced.NET 

下 面 的 内 容 涉 及 菜 些 尚未 介绍 过 的 特性 通过 正则 装配 件 (regex 
assemblies) 构建 正则 表达 式 库 ， 使 用 ,NET 专属 的 特性 匹配 磐 侠 结构 ， 
以 及 对 Capture 对 象 的 讲解 。 


IEW RIA Se Ae F 


Regex Assemblies 

NETRE FE Regex} RA SA Cassembly) 中 ， 在 构建 正则 
FOIA TEI IR IRA FRIZ SON A HEE S RA. 

运行 补充 内 容 中 的 例子 ， 能 够 在 当前 工程 的 bin 代 人 码 目录 下 创建 
JfriedlsRegexLibrary.DLL。 然 后 我 们 可 以 通过 Visual Studio.NETH Project 
> Add Reference 将 其 加 入 ， 在 其 他 工程 中 使 用 这 个 疙 配件 。 

要 使 用 痕 配 件 中 的 类 ， 首 先 必 须 导 入 : 

Imports jfriedl 

ZR Ja ty ARES SAE, Bla: 


Dim FieldRegex as CSV.GetField = New CSV.GetField ' 生 成 新 的 regex 4 % 


Dim FieldMatch as Match = FieldRegex.Match(Line) ' 应 用 到 字符 串 .,， 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups(1).Success 
Field = FieldMatch.Groups ("QuotedField") .Value 


Field = Regex.Replace(Field, """""™, """") '! 把 连 在 一 起 的 引号 替换 为 单个 引号 
Else 

Field = FieldMatch.Groups ("UnquotedField") .Value 
End If 
Console.WriteLine("({" & Field & "]") 


! 现在 可 以 处 理 ' Field’... 


FieldMatch = FieldMatch.NextMatch 
End While 


在 这 个 例子 中 ， 我 仅仅 从 jfriedl namespace 导入 ， 但 也 可 以 很 简单 
地 从 jfiedl.CSV namespace 导 入 ， 然 后 这 样 创建 Regex 对 和 象 : 

Dim FieldRegex as GetField=New GetField' 生 成 新 的 regex 对 象 

这 是 两 种 风格 。 


通过 小 配件 构建 和 目 己 的 正则 表达 式 库 


这 个 例子 构建 了 一 个 小 规模 的 正则 表达 式 库 。 完 整 的 程序 构建 了 一 个 装配 件 (DLL), 
其 中 和 包 念 三 个 已 经 生成 的 Regex 构造 函数 ;jfriedl.Mail.Subject, jfriedl.Mail. 
From #7 jfried1.CSV.GetField, 


前 两 者 很 简单 ， KRHA, REAPLANMHERARTT AREY HAR 
(Promise) 。 请 注意 ， 这 里 不 需要 设 定 RegexOptions.Compiled， 因 为 在 构造 装配 件 
时 已经 隐 含 地 设 定 了 。 


关于 如 何 使 用 构建 好 的 装配 件 ， 请 参考 第 434 页 。 
Option Explicit On 
Option. Strict On 


Imports System.Text.RegularExpressions 
Imports System.Reflection 


Module BuildMyLibrary 
Sub Main() 
‘ 下面 调 用 regexCompliationiInfo 时 提供 了 pattern, regex 选项 、 类 内 部 的 名 称 、 类 名 ， 
′ 以 及 一 个 Boolean 值 表 明 类 是 否 public。 举 例 来 说 ， 要 使 用 第 一 个 类 ， 
′ 程序 必须 使 用 装配 件 中 "Erieadl .Mail .Subject" 作 为 Regex 的 构造 函数 。 
Dim RCInfo() as RegexCompilationInfo = { 
New RegexCompilationtinfo (人 
"“Subject:\s*(.*)", RegexOptions.IgnoreCase, 
"Subject", "“Jiriedi.Mail", true), 
New RegexCompilationinfo ( 
"“From:\s*(.*)", RegexOptions.IgnoreCase, 
"From", “7irzredl.Mail", true), 
New RegexCompilationInfo ( 
HRGL] i 
" (2: " 
" (24 RA RMI FFM... ) " 
"onun (?# 起 始 双 引号 ) = 
" (7<0uetedField> (7> [MTL | SE joe J i 
和 A i (24 结束 双 引 号 " 
Ao DEP acon ” 
"m | LL 
" F ...4ES) 5 /SES SRA... ) ý 
" (?<UnquotedField> [*"",]*) i 
"y Ma 
RegexOptions.igqnorePatternwWhitespace, 
"GetField”, “ Jiriedi.csv",; true) 


PP PP PP ee Re eS 


} 
' 现 在 进行 主要 的 处 理 ， 生 成 结果 ... 
Dim AN as AssemblyName = new AssemblyName () 
AN.Name = "JfriedlsRegexLibrary" "DLL 文件 的 名 字 
AN.Version = New Version("1.0.0.0") 
Regex.CompileToAssembly(RCInfo, AN) “构建 完成 
End Sub 
End Module 


也 可 以 不 进行 任何 村 入 ， 而 是 直接 使 用 : 
Dim FieldRegex as jfriedl.CSV.GetField=New jfriedl.CSV.GetField 
OA RI, (AES EHD SOPRA Ah TRE, XR EU 


问题 。 
MERKEN 


Matching Nested Constructs 


做 软 提供 了 一 种 创新 的 功能 ， 专 门 用 于 匹配 对 称 的 结构 (长 期 以 





来 ， 正 则 表达 式 对 此 无 能 为 力 ) 。 它 理解 起 来 并 不 容易 本 节 篇 幅 不 
长 ， 但 请 注意 ， 其 中 的 内 容 分 量 不 少 。 
最 简单 的 办 法 就 是 用 一 个 例子 来 说 明 : 

Dim R As Regex = New Regex( " \( ee | 
W (2> W & E 
" [^()]+ wf E 
" | a? E 
i \( (?<DEPTH>) 
" | "os E 
n \) (?<-DEPTH>) & o 
" ) * " & E 
"  (? (DEPTH) (?!)) Ee 
W 13 om E 


RegexOptions.IgnorePatternwWhitespace) 
EAH ERNER, lon 


‘before (nope (yes (here) okay) after 中 用 下 画 线 标注 的 部 
分 。 第 一 个 开 插 号 不 会 由 配 ， 因 为 它 没 有 对 应 的 闭 括号 。 
这 里 简要 说 明了 程序 的 工作 原理 : 
1. 每 匹配 一 个 〈 超 过 正则 表达 却 开头 \〈 的) < C, | C? <DEPTH 
会 把 正则 表达 式 你 存 的 当 
AUS gE EEL. 
2. 每 匹配 一 个 ‘) ”’, ° (2? <-DEPTH>) 会 把 深度 减 1。 
3.'(? (DEPTH) (? ! ) ) 确保 最 后 的 \) 匹配 时 ， 深 度 应 该 
为 0。 

因为 引擎 的 回调 堆栈 保存 了 当前 匹配 成 功 分 组 的 信息 ， 这 个 办 法 设 
有 问题 。'(? <DEPTH>) 只 是 使 用 了 命名 捕获 的 '() ， 它 总 是 能 





> 


\Y 


成 功 匹 配 。 因 为 它 标 跟 在 仆 〈 之 后 ， 它 的 成 功 匹 配 《〈 此 信息 会 保存 在 推 
栈 中 ， 直 到 出 栈 为 止 ) 用 于 标记 开 括 号 的 数目 。 

因此 ， 当 前 已 经 成 功 匹 配 的 'DEPTH' 分 组 总 数 就 保存 在 回调 堆栈 
中 。 我 们 希望 在 找到 闭 括 写 之 后 减 去 它们 。.NET 独 有 的 '(? <-DEPTH 
>) 结构 ， 会 从 堆栈 中 去 挥 最 近 的 “Successful DEPTH” ri. WRAT 
在 这 样 的 标记 ，'(? <-DEPTH>) 就 会 报告 失败 ， 整 个 正则 表达 式 
的 匹配 宣告 失败 。 

最 后 的 ' ©? (DEPTH) (? ! ) ) 是 一 个 普通 的 条 件 判 断 ， 如 
果 'DEPTH' 分 组 匹配 成 功 它 会 SETO. 。 如 果 在 程序 运行 到 此 
处 时 选择 应 用 此 分 文 ， 就 表示 还 存在 未 匹配 的 开 括号 。 果真 如 此 的 话 ， 
我 们 就 需要 退出 罗 配 (我 们 不 希望 下 配 不 对 称 的 序列 〉 所 以 我 们 用 否定 
型 顺序 环视 ` 〈? ! ) 来 做 检查 ， 确 保 匹 配 失 败 。 

看 到 了 吗 ? 这 就 是 NET 正则 表达 式 匹 配 嵌 套 埋 构 的 原理 。 


Capture 对 人 象 


Capture Objects 
.NET 的 对 象 模 型 中 还 包括 Capture 对 象 ， eee 绍 过 。 依 
PEA EA E H REN ILACE RA I SBT RS BE 可 能 是 增加 把 
ZR IE St EG 
Capture 对 象 几乎 等 价 于 Group 对 象 ， 因 为 它 表示 一 组 捕获 型 括 写 四 
配 的 文本 。 与 ”Group 对 象 一 样 ， 它 提供 了 Value LARIE) 、 
Length 《匹配 文本 的 长 度 ) ， 以 及 “Imdex《〈 匹 配 文 本 在 目标 字 符 串 中 的 
AZ, Bas MOTT ERD 
Group 对 象 科 Capture 对 象 的 主要 差别 是 ， 每 个 Group 对 象 都 包含 了 
一 组 Captures， 分 别 对 应 到 匹配 过 程 中 各 分 组 的 未 确定 匹配 
(intermediary match) ， 以 及 该 分 组 最 终 匹 配 的 文本 。 
看 下 和 面 这 个 例子 : 
Dim M as Match=Regex.Match( " abcdetghijk Ny" AG)" ) 
正则 表达 式 匹 配 了 5 ZA (.) ， 包括 了 字符 串 中 的 绝 大 多 数字 符 


二 因为 加 号 在 括号 外 面 加 号 控制 的 每 次 迭代 都 会 重新 
捕获 ， 这 个 捕获 型 HT Ue FETS ei” CHE be 

M.Groups (1) .Value‘ij’) 。 相 反 ，M.Groups (1) 同样 包含 一 组 
Capture， 它 们 对 应 到 C.) 的 匹配 过 程 : 





M.Groups(1).Captures(0).Value is ‘ab’ 
M.Groups(1).Captures(1).Value is ‘cd’ 
M.Groups(1).Captures(2).Value is ‘ef’ 
M.Groups(1).Captures(3).Value is ‘gh’ 
M.Groups(1).Captures(4).Value is ‘ij’ 
M.Groups (1) .Captures.Count. is 5. 


(MEER EB), ia DLACHY ‘iy’ 6A] Tae Ae Jr DP AY 
M.Groups (1) .Value。 看 起 来 ，Group 的 Value 就 是 本 分 组 最 终 匹 配 文本 
的 简 记 法 。M.Groups (1) .Value 是 : 

M.Groups (1).Captures(M.Groups(1).Captures.Count-1).Value 

关于 Capture， 还 要 讲 几 点 : 

eM.Groups (1) .Capture 是 一 个 CaptureCollection， 与 普通 的 集合 
类 (collection) 一 样 ， 它 包含 了 Items 和 Count 属 性 。 不 过 ， 通 稼 大 家 都 
不 会 使 用 这 两 个 属性 ， 而 是 通过 索引 值 直接 访问 ， 例 如 
M.Groups (1) .Captures (3) (在 C# 中 是 
M.Groups[1].Captures[3]) 。 

eCapture 对 象 没 有 Success 方 法 ， 如 有 果 需 要 ， 请 测试 Group 的 
SUCCESS 。 

e 到 现在 ， 我 们 已 经 看 到 ，Capture 对 象 在 Group 对 象 内 部 可 用 。 
Match 对 象 也 有 Captures 属性 ， 尽 管 涌 出 并 不 大 。M.Captures 可 以 直接 
访问 编号 为 ”0 的 分 组 的 Captures 属 性 《〈 也 吏 是 说 ”M.Captures 等 价 于 
M.Groups (0) .Captures) 。 因 为 编号 为 0 的 分 组 表示 整个 匹配 ， 所 以 不 
会 有 “台历 ”匹配 的 从 代 ， 所 以 编写 为 0 的 捕获 集合 类 只 有 一 个 Capture。 
因为 它们 包含 与 编号 为 0 的 逻 配 同样 的 信息 ，M.Capters 和 
M.Groups (0) .Captures 并 不 是 很 有 用 。 

.NET 的 Capture 对 象 是 一 种 创新 ， 但 是 因为 与 对 象 模 型 “集成 过 上 度 
(overly integrated) ”使 用 起 来 反而 更 复 人 条， 而且 令 人 迷惑 。 在 仔细 
参阅 了 .NET 的 文档 ， 并 真正 理解 了 这 些 对 象 之 后 ， 我 感觉 这 种 做 法 有 利 
也 有 洱 。 一 方面 ， 我 乐于 看 到 这 种 创新 。 虽 然 它 的 用 法 并 不 会 马上 显现 
HARFER AN EARRA IRT AEE ENRERE 
思考 问题 。 

太一 方面 ， 在 匹配 过 程 中 的 额外 的 分 组 ， 匹 配 完 成 之 后 把 它们 封 乡 
到 一 个 对 象 中 ， 似 乎 降低 了 效率 ， 我 并 不 和 硕 望 降低 效率 ， 除 非 要 得 到 额 
外 的 信息 。 增 加 的 Capture 分 组 在 大 多 数 匹 配 中 不 会 用 到 ， 但 是 照 目前 
的 情况 来 看 ， 生 成 Match 对 象 时 会 构建 所 有 的 Group 和 Capture 对 象 
(以 及 它们 相关 的 GroupCollection 和 CaptureCollection 对 象 )。 所 以 无 论 


它们 都 在 那里 ， 如 果 你 有 


E 人 够 友 现 Capture 对 象 的 使 用 价值 ， 整 


第 10 音 PHP 


PHP 

20 世 纪 90 年 代 来 期 Web 的 迅 狐 友 展 导 致 了 PHP 的 条 和 炸 性 流行 ， 并 一 
直 持 续 人 罕 今 。PHP 得 以 流行 的 理由 之 一 是 ， 即 使 非 专 业 人 员 ， 只 需要 和 
作 准 备 ， 束 能 使 用 PHP 的 基本 功能 。 际 此 之 外 ，PHP ete T MERR 
老手 欢迎 的 众多 高 级 特性 和 函数 。PHP 当然 能 够 支持 正则 表达 式 ， 而 且 
提供 了 至少 3 侠 独立 的 ， 不 相关 的 正则 引擎 。 

PHP 的 三 种 正则 引擎 是 “preg”“ereg” 和 “mb_ereg”。 本 书 介绍 的 是 
preg 引擎 提供 的 函数 。 它 使 用 NFA 引擎 ， 通 第 情况 下 ， 在 速度 和 功能 
方面 都 要 强 于 其 余 两 者 〈“preg” 读 作 “p-reg”) 。 

与 之 前 各 和 章 的 联系 ”在 开始 本 章 之 前 ， 读 者 必须 知道 ， 本 草 的 内 容 
强烈 依赖 于 第 1 至 6 章 介 绍 的 基础 知识 。 如 果 读 者 只 对 PHP 感 兴趣 ， 可 能 
会 直接 从 本 章 开 始 阅 读 ， 但 我 还 是 布 望 他 们 认真 地 看 一 看 前 言 〈 尤 其 是 
天 于 体例 ) 和 前 面 的 章节 : 第 1、2、3 章 介绍 了 与 正则 表达 式 相 关 的 基 
本 概念、 特性 和 技术 ， 第 4、5、6 草 介 绍 了 一 些 理解 正则 表达 式 的 天 键 
知识 ， 它 们 可 以 直接 应 用 到 PHP 的 正则 表达 式 中 。 前 儿 间 讲解 的 重要 概 
念 包括 NFA 引 擎 进行 匹配 基本 诛 理 ， 匹 配 优先 特性 、 回 亢 和 效率 。 

接 下 来 我 要 强调 ， 除 了 用 于 速 租 列表 一 -一 例如 本 章 的 第 407 页 ， 和 
第 3 草 从 第 114 页 到 第 123 页 ， 我 并 不 希望 这 本 书 成 为 一 本 参考 手册 ， 而 
布 望 它 成 为 精通 正则 表达 式 的 详细 教科 书 。 

本 章 开 始 简 要 介绍 了 preg 引 擎 的 历史 ， 然 后 介绍 它 的 正则 流派 。 接 
下 来 的 几 和 详细 考察 了 preg 函 数 的 接口 ， 然 后 是 基于 preg 的 效率 问题 ， 

最 后 十 扩展 示例 。 

preg ”的 背景 和 历史 preg 这 个 名 字 来 和 目 接 口 函 数 名 的 前 绥 ， 代 
表 “Perl 的 正则 表达 式 (Perl Regular Expressions) ”。Ppreg 引 擎 的 创始 人 
是 Andrei Zmievski， 他 对 当时 作为 标准 的 ereg 往 件 的 诸多 党 肘 相当 不 满 
意 。 (ereg 表 示 “ 扩 展 的 正则 表达 式 Cextended regular expressions) ”， 
它 能 兼容 POSIX 标 准 , “扩展 ”的 意思 是 不 仅仅 限于 一 个 最 简单 的 正则 流 
派 ， 但 是 以 今天 的 标准 来 看 ， 还 相当 人 简陋) 。 

Andrei 的 preg 套件 是 一 组 PCRE 〈 即 “Perl 兼容 的 正则 表达 式 ”Perl 
Compatible Regular Expressions) 接口 ， 这 是 一 做 非常 棱 的 基于 NFA 的 下 
vii 完整 地 模拟 了 Perl 的 语法 和 语音， 提供 了 Andrei 想 要 的 能 


在 接触 PCRE 以 前 ，Andrei 先 阅读 了 Perl 的 源 代码 ， 以 决定 是 否 能 够 
借用 到 PHP 当 中 。 他 显然 不 是 第 一 个 阅读 Perl 的 正则 表达 式 源 代码 的 
人 人， 也 不 是 第 一 个 认识 到 代码 有 多 么 复杂 的 人 。Perl 的 正则 表达 去 功能 
强 ， 速 度 快 ， 源 代码 也 在 许多 年 间 经 过 了 许多 人 的 修改 ， 己 经 超出 了 早 
个 开发 人 员 的 理解 能 力 。 

SEAE, AUKA Philip Hazel 同 样 已 经 被 Perl 的 正则 表达 式 的 
源 代码 搞 得 头 昏 脑 胀 ， 所 以 他 写 了 PCRE 库 (参见 第 91 页 ) 。 好 在 Philip 
已 经 有 了 现成 的 可 供 模拟 的 语音， 所 以 奢 干 年 后 ，Andrei RE) AE ji 
写 清 晰 、 文 档 完 备 、 效 率 出 众 的 库 ， 很 方便 了 驶 能 将 其 绑 定 到 PHP 中 。 

Perl 随 大 时 间 的 流 挝 而 不 断 发 展 ，PCRE 也 是 这 样 ，PHP 亦 然 。 本 书 
针对 的 是 PHP Versions 4.4.3 和 5.1.4， 这 两 者 都 兼容 PCRE Version6.6 ( 注 
1) 。 

如 果 你 不 熟悉 PHP 的 版 本 信息 ， 清 注意 4.x 和 5.x 是 同时 维护 的 ， 而 
5.X 进 行 了 大 规模 的 扩展 。 因 为 两 个 系列 是 分 开 维护 和 有 发布 的 ， 很 可 能 
菜 个 5.x 的 版 本 所 用 的 PCRE 的 版 本 要 低 于 更 上 晚 发 布 的 4.x 版 本 。 


PHP HS IE UYLIK 


PHP's Regex Flavor 
表 10-1: PHP preg 的 正则 流派 


字符 缩 略 表示 法 





115 (c) \a [\b] \e \f \n \r \t \octal\xhex \xfhex} \echar 
字符 组 及 相关 结构 

#118 (c) FHM: […] [^…] (TESES AS 125) 

#119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 

= 120 (u) Unicode 混合 序列 : \x 

7 120(c) | 字符 组 缩 略 表 示 法 ”: \w \d \s \W \D NS( 只 针对 8 位 字符 ) 


121 (c) (u) 





Unicode & tf- KH: \p{Prop} \P{Prop} 














7120 单个 字 节 (可 能 有 危险 ) “: \c 

锚 点 及 其 他 零 长 度 断 言 

7129 | 行 /字符 囊 起 始 位 置 : ^ 

129 行 /字符 囊 结束 位 置 : $ \z Z 

#130 当前 匹配 的 起 始 位 置 : MG 

133 单词 分 界 符 : Nb \B( 只 针对 8 EH) 

133 | 环视 结构 *; 〈(?=…) (21e) (Beer) (26h) 
注释 及 模式 修饰 符 

446 模式 修饰 符 : (2mods-mods) 容许 出 现 的 模式 ; xo smi XU 
Ad6 模式 修饰 范围 : (3mods-mods:…:) 

136 O O [EE (8) (RARAB HATHA, AP RRR IRERKI) 
分 组 及 捕获 

#446 MRES: (+) ML \2e 

7446 命名 捕获 :; (2P<name>) (?P=name) 

137 仅 分 组 的 括号 : (?:…) 

© 139 固化 分 组 : (2>) 

139 多 选 结构 ; | 

475 递归 : (F?R) (?num) (?P>name) 

#140 条 件 判 断 ， (2if then | else) “if” 部 分 可 以 是 环视 ，(num) 或 (name) 
14] 匹配 优先 量词 : * +? {n} {n,} {x,y} 

#14] | 忽略 优先 量词 : *? +2 ?? {n}? {n,}? {x,y}? 

3142 占有 优先 量词 : t+ ++ ?+ {n}+ {n,}+ {x,y}+ 

#136 (c) 文字 ( 非 元 字符 ) 范围 : \Q…\E 
(c) 可 用 于 字符 组 内 部 D- OLHA 
(u) ——R HES RAM MA u EMA 


(AAP HE A PHP preg sf 3 PPAR A 4 EM) Rik AH PCRE) 


前 页 的 表 10-1 人 简要 介绍 了 了 preg 引擎 的 正则 流派 。 下 和 面 是 补 元 说 明 : 

O 只 有 在 字符 组 内 部 ，\b 才 表示 退 格 符 。 在 其 他 场合 ，\b 匹 配 单词 
分 界 符 C133) 。 

十 进 制 转 义 只 能 使 用 两 到 三 位 八 位 数值 。 特 殊 的 一 位 数 \0 序列 匹 
Mar (NUL byte) 。 

| \xhex 容许 出 现 一 到 两 位 十 六 进 制 数字 ， 而 hex} 容许 任意 多 
个 数字 。 请 注意 ， 大 于 \x{FF} 的 数值 只 能 与 模式 修饰 从 u 连 用 (号 
n 。 如 果 没 有 模式 修饰 从 uu， 大 于 \x{FF} 的 值 会 叶 仅 正则 表达 式 非 
eee 

D 即使 是 在 UTF-8 模 式 下 《〈 通 过 模式 修饰 竺 u) , Hila 
符 组 简 记 法 ， 例 如 \w ， 也 只 对 ASCII 字 符 起 作用 。 如 果 需 要 处 理 所 有 
的 Unicode 字 人 符 ， 请 使 用 \pL (121) RÆ w, HA \pN 代 符 Ad ， 用 
\pZ RE ^s o 

(3) Unicode x #41 Xf Unicode Version 4.1.0. 

Unicode FF} (5122) 的 文 持 不 需要 任何 ‘Is’ 或 者 ‘In? 前 经， 例如 
\p{Cyrillic} 。 

PHP ”同时 文 持 单 字母 或 双 字 母 Unicode ”属性 ， 例 如 \p{Lu} . 
\p{L},, FO \pL 作为 单字 母 属性 名 (二 121) 。 而 不 文 持 \p{Letter} 
之 类 的 长 名 称 。 

PHP 也 支持 特殊 的 \p{L&} (121) ， 以 及 "\p{Any} (表示 任意 
FIF) 。 

O 在 默认 情况 下 ，preg 傣 件 的 正则 表达 式 是 以 字 市 为 早 位 的 ， 所 
以 AC 默认 就 等 价 于 | (? s: .) ， 由 s 修 饰 的 点 号 。 不 过 ， 如 果 使 用 
了 修饰 符 u， 则 preg 套件 就 会 以 UTEF-8 字 母 为 单位 ， 也 就 是 说 ， 一 个 字 
从 可 能 由 6 个 字 市 组 成 。 即 使 这 样 ，N\C 仍然 匹配 单个 字 季 。 请 参考 第 
120 页 的 注意 事项 。 

© \z MZ 都 能 够 轧 配 字符 串 的 末尾 ， 而 \Z 同样 能 够 轧 配 最 后 的 
FRAT TF -o 

$ 的 意义 取决 于 模式 修饰 符 m 和 D C446) : 如 果 没 有 设 定 任何 

IEI $ 等 价 于 \Z (在 字符 串 结尾 的 换行 行 ， 或 者 是 字 从 串 结 
Ff); 如 果 使 用 了 m， 则 它 能 够 还 配 内 骸 的 换行 伯 ， 如 果 使 用 了 模式 修 
iss D, CBEILE 《〈 只 有 在 字符 串 的 结尾 ) 。 如 采 同 时 设置 了 m 
MD, N KIED. 

© 刻 序 环视 中 使 用 的 子 表达 陈 只 能 匹配 固定 长 度 的 文本 ， 除 非 顶 


层 多 选 分 文 容 许 不 同 的 固定 长 度 (7133) 。 
D ”模式 修饰 符 x( 自 由 格式 和 注释 ) 只 能 识别 ASCII 的 空白 字符 ， 
不 能 识别 Unicode 中 的 空白 字符 。 


Preg Pk 242 O 


The Preg Function Interface 
PHP 正 则 引 警 的 处 理 方式 完全 是 程序 式 的 (二 95) ， 包 括 表 10-2 顶 
昕 的 6 个 冰 数 ， 表 格 还 列举 了 4 个 有 用 的 函数 ， 将 在 本 章 后 面 所 到。 


表 10-2: PHP Preg PA ZUE, 


函数 用 ik 
‘449 preg match 测试 正则 表达 式 能 否 在 字符 囊 中 找到 匹配 ,并 提取 数据 
F453 preg match all 从 字符 串 中 提取 数据 
F458 preg replace 在 字符 串 的 副本 中 替换 匹配 的 文本 
#463 preg replace callback | 对 字符 串 中 的 每 处 匹配 文本 调用 处 理 函 数 
#465 preg split HT it BDA T P HA 
F409 preg grep 选 出 数组 中 能 /不 能 由 表达 式 匹 配 的 元 率 
®470 preg quote 转 义 字符 串 中 的 正则 表达 式 元 字符 
下 面 四 个 函数 在 本 章 中 开发 完成 ， 列 在 此 处 方便 查询 
F454 reg match 类 似 preg match， 但 能 识别 出 为 参与 匹配 的 括号 
s472 preg regex to pattern | 根据 正则 表达 式 字符 串 生 成 preg pattern F st # 
F414 preg pattern error 检查 preg pattern 字符 串 的 语法 锚 误 
847$ preg regex error 检查 正则 表达 式 字 符 串 的 语法 错误 


每 个 函数 的 具体 功能 部 取决 于 参数 的 个 数 、 标 志 位 (flag〉， 以 及 
正则 表达 式 所 使 用 的 模式 修饰 从 。 在 深入 细节 之 机 我 们 先 通 过 几 个 例子 
来 看 看 PHP 中 的 正则 表达 式 的 例子 和 处 理 方式 。 

/* 测试 HTML tag #@<table> tag */ 
if (preg match('/*<table\b/i', Stag) ) 
print "tag is a table tag\n"; 


/* 测试 文本 是 否 为 整数 */ 
if (preg match('/*-?\d+$/', Suser input) ) 
print "user input is an integer\n"; 


/* 从 字符 串 中 取出 HTML title */ 
if (preg match('{<title>(.*?)</title>}si', Shtml, Smatches) ) 
print "page title: Smatches[1]\n"; 


/* 将 字符 串 中 的 数值 作为 华氏 温度 ， 将 其 替换 为 摄氏 温度 */ 
Smetric = preg replace('/(-?\d+(?:\.\d+)?)/e', /* pattern */ 


'floor (($1-32)*5/9 + 0.5)', /* 替换 代码 */ 
Sstring) ; 


/* 从 过 号 分 割 值 数据 创建 字符 串 数 组 * / 
Svalues array = preg split('!\s*,\s*,!', $comma separated values); 


最 后 的 程序 ， 如 果 输 入 5Larry，:Curly，， Moe:， 返 回 三 个 元 素 的 数 
ZH: ‘Larry’, ‘Curly’ F Moe’. 


“pattern” ZW 


"Pattern" Arguments 

所 有 preg 消 数 的 第 一 个 参数 都 是 patterm， 正 则 表达 式 包 含 在 一 对 分 
隔 符 之 内 ， 可 能 还 跟 有 模式 修饰 符 。 在 上 面 的 第 一 个 例子 中 ，Ppattern 参 
Bye /<table\b/i’?, topixe Bate Ree Corba) 里 头 的 "去 
table\b ， 然 后 是 模式 修饰 符 i (不 区 分 大 小 写 的 匹配 〉。 

PHP 单 引号 字符 串 

因为 正则 表达 式 很 有 可 能 包 售 反 和 董 线 ，， 所 以 在 以 字符 串 文 字 方 式 
提供 pattern 参 数 时 ， 最 好 使 用 PHP 的 单 引 号 字符 串 。 第 3 章 介 绍 了 PHP 的 
字符 串 文 字 C103) ， 们 单 地 说 ， 如 果 使 用 单 引 号 字 从 串 文本 ， 正 则 
表达 式 就 可 以 省 略 许多 额外 的 转 义 。PHP 的 单 引号 字符 串 只 有 两 个 元 序 
列 ， 公 和信， 分 别 代 表单 引号 和 反 冬 线 。 

有 一 种 转 义 需要 特别 注意 ， 残 是 在 正则 表达 式 中 使 用 从 匹配 一 个 
BORE TEFL S| SARA RRA, BED 都 应 表示 为 \， 所 以 开 束 成 了 
\NN。 四 个 反 冬 线 才 能 匹配 一 个 反 斜 线 字符 ， 这 真神 奇 ! 

(473 页 有 反 冬 线索 复 到 极 闯 的 例 于 。 ) 

举 个 具体 的 例子 ， 用 正则 表达 式 匹 配 Windows 系 统 中 的 分 区 名 ， 例 
ac: 。 可 以 用 正则 表达 式 人 A-Z]: M$ ， 表 示 为 单 引 号 字符 串 文字 
就 是 个 A-Z]: So 


wr. Atte 


5m LOMA PPI, 人.xN 作为 pattern 字 符 串 时 应 该 写成 /和 A. 


大 NAV， 使 用 3 个 反 和 斜 线 。 照 此 类 推 ， 我 找到 这 几 个 例子 : 


人 mee fou yf 
paige  f*  s me fF FNS 
GEINE Tg Fe TY 本 
ET 


头 两 个 例子 尽管 方式 不 同 ， 结 果 却 是 一 样 的 。 在 第 一 个 例子 中 ， 结 
尾 的 ”对 于 单 引 喜 字 人 符 串 文字 并 不 是 特殊 文本 ， 所 以 它 怠 等 于 字符 串 
的 值 。 第 二 个 例子 中 ，' 人 对 于 字符 串 文 字 来 说 有 特殊 含义 ， 所 以 输出 
APP EB PHS. ESR CRED 放 在 一 起 ， 得 到 与 第 
aa ma 同样 的 道理 ， 第 三 个 和 第 四 个 例子 也 会 得 到 同样 

当然 ， 你 也 可 以 使 用 PHP 的 双 引 号 字符 串 文 本 ， 但 是 它们 要 麻烦 许 
多 。 它 们 支持 许多 字符 串 元 序列 ， 这 些 在 正则 表达 式 字 人 符 串 中 都 必须 特 
殊 处 理 。 

Oy Ba FF 

preg 引 人 擎 要 求 正 则 表达 式 两 端 必 有 顷 有 分 陋 符 ， 因 为 设计 者 希望 它 看 
起 来 更 像 Perl， 尤 其 在 模式 修饰 符 的 使 用 方法 上 更 是 如 此 。 有 的 程序 员 
觉得 在 正则 表达 云 两 产 疾 加 分 隔 符 人 简 百 是 多 此 一 举 ， 但 是 无 论 好 还 是 不 
好 ， 规 定 就 是 规定 〈 第 448 也 给 出 了 一 个 “不 好 ”的 原因 ) 。 

利 见 的 做 法 是 使 用 斜 线 作为 分 隅 符 ， 不 过 我 们 还 可 以 用 除了 字母 、 
数字 、 上 友和 斜 线 和 衬 白 字符 之 外 的 任何 ASCII 字 符 做 分 陋 符 。 了 最 稼 见 的 是 
一 对 斜 线 ， 但 两 个 ‘! A H ?也 很 种 见 。 

如 果 第 一 个 分 隅 从 表示 “ 开 (opening) ”: 

{(< I 

Mh DAA? a) Bis 4 Ee 

}) >] 

QU RE REBOOT HP ae, Oe APL AY BERKS, Hr 
be Gd+) ) :也 可 以 用 作 pattern 字 符 串 。 其 中 ， 外 面 的 括号 是 模式 字 
从 串 分 隅 从 ， 内 部 的 插 写 属于 分 隅 从 之 内 的 正则 表达 式 。 为 了 清晰 起 
见 ， 我 会 避免 这 种 情况 ， 使 用 简单 易 异 有 的/ (d+) /。 

pattern 字 人 符 串 内 部 可 以 出 现 转 义 的 分 隔 符 ， 所 以 /<B> Cx? ) 
<VB>> 话 并 没有 错 ， 不 过 换 一 组 分 隅 符 可 能 看 得 更 清楚 ， 人 例如“! <B> 
Cx? ) </B>! PEAS! ...! CEA. M{<B> (x? ) </B 
> hi’ TERA ‘{...}'6 

模式 修饰 符 


在 结束 分 隔 符 之 后 可 以 跟随 多 种 模式 修饰 符 〈 用 PHP 的 术语 来 说 
叫做 pattern modifier) ， 在 茶 些 情况 下 ， 修 饰 符 也 可 以 出 现在 正则 表达 
式 内 部 ， 修 饰 模式 的 某 些 性 质 。 我 们 已 经 在 一 些 例子 中 看 到 过 表示 不 区 
分 大 小 写 的 模式 修饰 符 i。 下 面 简要 介绍 模式 修饰 符 : 
修饰 符 aa 说 明 
a [emgan 
m 112 RH ARR 
o en sme 
x 人 111 宽松 排列 和 注释 模式 


447 以 UTF-8 读 取 正 则 表达 式 和 目标 字符 串 


l 一 
X T(x), | F447 启用 PCRE“ 额 外 功能 (extra stuff)” 


459 将 replacement 作为 PHP 代码 (只 用 于 preg replace) 
478 局 用 PCRE $) “study” RLETI 


下 面 三 个 很 少 用 到 
U (20) 4 447 交换 fo ARREA 
CAA] HRA ARS ee AS (iE 1) 
4471$| 只 能 匹配 EOS, 而 不 是 EOS 之 前 的 换行 符 
(如 果 使 用 了 模式 修饰 符 m 则 不 会 这 样 ) 


表达 式 内 部 的 模式 修饰 行 ” 在 正则 表达 式 内 部 ， 柑 式 修 饰 从 可 以 单 
独 出 现 ， 来 局 用 或 集 用 某 些 特性 例如 用 '(? D 来 局 用 不 区 分 大 小 与 
的 匹配 ， 用 CO -D 来 停 用 到 135) 。 此 时 ， 它们 的 作用 范围 持 多 LB] KY 
应 的 结束 括号 ， 如 果 不 存 在 ， 就 持续 到 正则 表达 式 的 末尾 。 

他 们 也 可 以 用 作 模 式 修 饰 范围 C35) ， 例 如 (? is ...) 表示 
HER S A A A ETT ASK ap AD Sc, | C? -sm: ...) 表示 在 
此 范围 内 信用 sS 和 mm 模 云 。 

正则 表达 式 之 外 ， 结 束 分 隅 从 之 后 的 模式 修饰 从 可 以 以 任何 顺 厅 组 
ZA, PBI ‘si’ Zea A a FAN IK ADS A RN: 

if (preg_match('{<title >(. x ?)</title > }si',Shtml,$captures)) 

PHP 特 有 的 修饰 符 IREE im AP i SE i EB IBF 
ERIA (110) 已 经 讨论 过 。 修 饰 符 e 只 能 在 preg_replace 中 使 用 ， 详 
细 的 讨论 见 对 应 的 小 节 Cs 459) 。 





Lf 


J> 


w 


模式 修饰 符 u 告 诉 preg 引 擎 ， 以 UTF-8 编 码 处 理 正则 表达 式 和 目标 字 
符 串 。 此 模式 修饰 符 不 会 修改 数据 ， 只 是 更 改正 则 引擎 处 理 数 据 的 方 
The FRU Cate a eRe IA) 的 情况 下 ，preg 引 人 擎 认为 接收 
的 数据 都 是 8 位 编 但 的 《至 87) 。 如 末 用 户 知道 数 据 是 UTF-8 编 但 的 ， 
请 使 用 此 修饰 从 ， 否 则 请 不 要 使 用 。 在 UTF-8 编 码 中 ， 非 ASCII 字 符 以 
om AE FA Ti FF ES WH Da BN a BE AEDS OR 

ie 


TUE ii A Xa HPCRER “Alb SRE Cextra stuff) ”， 目 前 它 只 有 一 
个 效果 : WAR HE ST AZ Re, RK BI, FRU 
情况 下 ， \k fEPCRE' PISA RRR BSED k (因为 这 不 是 一 个 
己 知 的 元 序列 ， 所 以 肥 笠 线 会 被 忽略 ) o WREN SRZ, W 
会 报告 “unrecognized character follows\” . 

未 来 版 本 的 PHP 可 能 包含 更 高 版 本 的 PCRE， 其 中 当前 没有 特殊 意 
NARR RAS H RERI TIIE, MAN T REFERRE A 
及 一 般 可 读 性 ) ， 最 好 古人 不 要 转 义 不 需要 的 字母 ， 除 非 它 们 现在 有 特殊 
-s 从 这 个 意义 上 说 ， 模 式 修饰 符 X 意义 重大 ， 因 为 它 可 以 发 现 这 样 
JERR o 

模式 修饰 符 S 调 用 PCRE 的 “study《〈 研 究 ) ”特性 ， 预 先 分 析 正 则 表达 
却 ， 在 荣 些 顺 利 的 情况 下 ， 在 答 试 匹配 时 速度 会 大 大 提升 。 本 章 中 关于 
效率 的 内 容 将 对 此 有 介绍 ， 请 参考 第 478 页 。 

剩 下 的 模 却 修饰 符 实 用 价 人 不 大 ， 也 不 利用 : 

ee 模式 修饰 符 A 把 匹配 锚 定 在 第 一 次 洽 试 的 位 置 ， 残 等 于 整个 正则 
表达 式 以 \G Fk. WRASSE, ERATE SIAL 
的 “驱动 过 程 ”( 二 148) 。 

e 模 式 修饰 从 D 会 把 每 个 $ BPA Wz, C112) , B'S 匹配 字符 串 
的 末尾 ， 而 不 是 字符 串 之 内 的 换行 付 。 

e 模 式 修饰 从 U 交换 元 字符 的 匹配 优先 含义 : "大 和 大? 交换 ， 
+ 和 -+? 交换， 等 等 。 我 狂 这 个 模式 修饰 从 的 主要 作用 在 于 制造 泥 
瑟 ， 上 所 以 我 完全 不 推荐 使 用 它 。 


“Unknown Modifier’ ”错误 


有 时 候 ， 手 头 程序 忽然 会 报告 “Unknown Modifier” 错 误 。 我 绞 尽 脑汁 希望 找到 问题 
所 在 ， 最 终 懂 然 大 悟 ， 原 来自 己 在 创建 模式 系数 时 总 了 添加 分 隧 笠 
例如 ， 我 可 能 希望 这 样 匹 配 HTML tag: 

preg match('<(\wt) ([*>]*)>', $html) 
我 的 本 意 是 ， < 是 正则 表达 式 的 一 部 分 ， 但 preg match AC RRM (A 
ACS Te AAP EER AEE? ) 。 所 以 ,这 个 参数 被 解释 为 《(\W4) ([^>] *)> ， 
其 中 的 正则 表达 式 以 灰色 标注 ， 模 式 修饰 符 以 下 画 线 标注 ， 
在 正则 表达 式 中 ，(\w+) (URRY, 但 是 在 发 现 并 报告 错误 之 前 , 正则 引擎 会 斌 
图 将 ]*)> 解释 为 一 串 模 式 修饰 符 。 但 它们 全 部 不 是 合法 的 模式 修饰 符 ， 所 以 ， 当 
然 会 报告 错误 ， 

Warning: Unknown modifier ']' 
LR, KERMA OA: 

preg match('/<(\wt) (.*?)>/', $html) 
除非 我 知道 这 里 的 modifier 指 的 是 PHP 的 pattern 修饰 符 , 否 则 此 错误 报告 中 给 出 的 修 
饰 符 并 不 能 让 人 明白 ， 所 以 有 时 候 我 得 花 点 时 间 才 能 找到 问题 所 在 。 每 次 遇 到 这 样 的 
问题 ， 我 者 觉得 自己 很 傻 ， 但 幸运 的 是 ， 没 人 知道 我 会 犯 这 种 低级 的 错误 ， 
$34, PHPS 最 近 禾 本 的 报销 信息 改 成 了 这 样 ， 

Warning: preg match(): Unknown modifier ']' 
因为 出 现 了 函数 名 ， 我 立刻 就 能 反应 过 来 。 不 过 ， 有 时 候 仍 然 需 要 花 很 多 时 间 来 查找 
漏 写 分 所 符 的 问题 ， 因 为 不 是 每 次 前 会 报错 。 比 如 下 面 这 段 程序 : 

preg match('<(\wt) (.*?)>', $html) 
REET SPA, Aw) 合法 的 正则 表达 式 。 唯 一 的 毛病 在 于 它 
不 能 匹配 我 期 望 的 结果 。 a A ig aE if RF 


Preg K 2 47 列 


The Preg Functions 
本 节 从 最 基本 的 “这 个 正则 表达 式 能 人寿 在 字符 串 中 找到 匹配 * 开 始 ， 
详细 介绍 各 个 函数 。 


preg_match 
使 用 方法 
preg_match(pattern,subject[,matches[,flags [,offset]]]) 
参数 简介 
pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修 饰 从 (号 
444) 。 


subject 需要 搜索 的 目标 字符 串 。 

matches 非 强 制 出 现 ， 用 ye 

flags 韭 强制 出 现 ， 此 标志 位 会 影响 整个 水 数 的 行为 。 只 容许 出 
现 一 个 标志 位 ， 

PREG_OFFSET_CAPTURE(#452). 
453) 。 

返回 值 

QR FR SIPC EC, Wik leltrue, Aik [Hl false. 

讲解 

最 简单 的 用 法 是 : 

preg_match($pattern, $subject) 

如 果 $pattern 在 $subject 中 能 找到 [L 配 ， 就 会 返回 true。 下 和 耐 有 几 个 人 简 
单 的 例子 : 


if (preg match('/\. (jpe?g|png|gif|bmp)$/i', Surl)) { 
/* 图 片 的 URL */ 


it (preg matehlt I hee ys Suri)}) 4 
/* URI x http 或 https */ 


if (preg match('/\b MSIE \b/x', $ SERVER['HTTP USER AGENT'])) { 
/* 浏览 器 是 IE */ 
| 


捕获 匹配 数据 
preg_match 的 第 3 个 参数 如 果 出 现 ， 则 会 用 来 保存 匹配 结果 的 信 
已。 用 户 可 以 赂 目 己 的 意愿 使 用 任何 变量 ， 不 过 了 最 种 用 的 名 字 是 


$matches。 在 本 书 中 ， 如 果 我 在 特定 的 例子 之 外 提 到 $matches， 指 的 融 
是 “preg_match 接 收 的 第 3 个 参数 ”。 
匹配 成 功 之 后 ，preg_match 退 回 true， 并 投 如 下 规则 设置 matches: 
Smatches [0] 是 正则 表达 式 匹 配 的 所 有 文本 
Smatches [1] 是 第 工 组 捕获 型 括号 捕获 的 文本 
Smatches [2] 是 第 2 组 捕获 型 括号 捕获 的 文本 
如 果 使 用 了 命名 分 组 ，$matches 中 也 会 保存 对 应 的 元 陛 〈 下 一 节 有 
这 样 的 例子 )。 
5m (191) 曾 出 现 过 这 个 简单 的 例子 : 
/* 输入 完整 路 径 ， 分 离 出 文件 名 */ 
if (preg match('{ / ([^/]+) $}x', SWholePath, $matches)) 
SFileName = Smatches[1]; 


最 好 是 在 preg_match 返 回 true 的 情况 下 用 $matches《〈 随 便 你 怎么 命 
Z) 。 如 果 [ 匹 配 不 成 功 ， 会 返回 false， 或 者 错误 〈 例 如 模式 错误 或 函数 
标志 位 设置 错误 ) 。 有 的 错误 发 生 之 后 ，$matches 是 空 数 组 ， 但 也 有 时 
ei 所 以 我 们 不 能 认为 ，$matches ”不 为 空 就 表示 罗 配 
功 。 

下 面 这 个 例子 使 用 了 3 组 捕获 型 括号 : 


/* 从 URL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg mateh("{* (https?) oy (PAR Co a (yO ) 2 J Surly Smatches) ) 
í 


sproto = Şmatches[1]; 
Shost = Şmatches[2]; 
Sport = $matches[3] ? Smatches[3] : (Sproto == "http" ? 80 :443); 


print "Protocol: S$proto\n"; 
print “Host è Shosti"; 
print "Pert r Seorb in"; 


BA 25 FEARS SVL AC” WY OR A AS 
QR — 2B RAT SS RASS RAL, CASE PY Smatches 
AEM 7S 28 EER CEQ) 。 需 要 说 明 的 是 ，$matches 末 尾 的 空 字符 串 
RRA. FEAT AREER, OR! Ad 参与 了 匹配 ， 
$matches[3] 会 体 存 一 个 数值 ， 人 否则 ，$matches[3] 根 本 吏 不 会 存在 。 
命名 捕获 
如 条 我 们 用 命名 捕获 CS 138) 重 写 之 前 的 例子 ， 正 则 表达 式 会 长 
一 些 ， 不 过 代码 更 容易 阅读 : 
/* 从 URL 中 提取 协议 、 主 机 名 和 问 口 号 */ 
if (preg match('{*(?P<proto> https? ) :// 
(7P<host> ["/2] + ) 
(2: : (?P<port> \d+ ) )? }x', Surl; Smatches) | 
| 
Sproto = Smatches['proto']; 
Shost = $matches['host']; 
Sport = $matches['port'] ? $matches['port'] : (Sproto== "http" ?80 : 443); 
print "Protocol: Sproto 
print "Host i Shost\n" 
print. “Port : Sporn ns 
} 


命名 捕获 看 起 来 更 清晰 ， 这 样 我 们 不 需要 把 $matches 的 内 容 复制 给 
各 个 变量 ， 束 能 下 接 使 用 变量 名 ， 而 不 是 $matches， 例 如 这 样 : 


/* 从 URL 中 提取 协议 、 主 机 名 和 问 口 号 */ 
if (preg match('{*(?P<proto> https? ):// 
(?P<host> [*/:]+ ) 
(23 2: (2PKpert> Var ) 2 ja", Suri; SUelInta)) 


LE {1 MUPELINTIG| "DOrtY|]) 


SUrlinfo['port'] = ($UrlInfo['proto'] == "http" ? 80 : 443); 
eho “Pretocsls ", Suelintal *wrete'|, "NY 
echo "Host > ew. Sueitatel test? |, sar: 
echo "Port 2 Te SUrlints(*port*], TIB 


如 果 使 用 了 命名 捕获 ， 按 数字 编号 的 捕获 仍然 会 插入 $matches。 例 
如 ， 在 匹配 $url 〈 值 为 http: //regex.info’) 之 后 ， 之 前 例子 中 的 $UrlInfo 
Ae: 


array 
( 
0 => 'http://regex.info', 
HOLO” => ‘'http', 
1 => '‘http', 
"host" => ‘'regex.info', 
2 => 'regex.info' 


) 


这 样 的 重复 有 点 银 婉 ， 但 这 是 获得 命名 捕获 的 便捷 和 清晰 所 必须 付 
出 的 代价 。 为 清晰 起 见 ， 我 不 推荐 同时 使 用 命名 和 数字 编写 来 访问 
$matches 的 元 系 ， 当 然 用 $matches[0] 表 示 全 局 罗 配 例外 。 

请 注意 ， 数 组 中 不 包括 编号 为 3 和 和 名称 为 port 的 入 口 Centry) ， 
为 这 一 组 捕获 型 括号 没有 参与 到 了 最 终 匹 配 中 ， 而 且 处 于 最 后 《因此 会 被 
忽略 号 450) 。 

还 要 提 一 点 ， 尽 管 现在 使 用 例如 (? P<2>.. 类 的 数字 命名 
并 不 会 出 错 ， a 这 种 做 法 并 不 可 取 。 pHP4 和 PHP5 在 i 
会 有 所 区 别 ， 可 能 不 会 按照 个 人 的 意愿 发 展 ， 所 以 最 好 还 是 不 要 使 用 数 

字 来 命名 捕获 分 组 。 

更 多 的 匹配 细节 :PREG_OFFSET CAPTURE 

WRAS preg match WA 4 个 参数 flags, MHA 
PREG OFFSET CAPTURE (这 也 是 preg_match 目 前 能 够 接受 的 唯一 标 
忘 位)， 则 $matches 的 每 个 元 系 不 青 是 普通 字符 串 ， 而 十 由 两 个 元 素 构 
成 的 子 数组 ， 其 中 第 1 个 元 素 是 匹配 的 文本 ， 第 2 个 元 素 是 这 上 段 文 本 在 
目标 字符 串 中 的 偏 移 值 〈 如 果 没 有 参与 匹配 ， 则 为 -1) 。 


偏 移 值 从 0 开始 ， 表 示 这 上 段 文 本 相对 目标 字符 串 的 偏 移 值 ， 即 使 设 
置 了 第 5 个 参数 $offset， 偏 移 值 的 计算 也 不 会 变化 。 它 们 通常 按 照 字 市 
来 计数 ， 即 使 使 用 了 模式 修饰 人 符 u 也 是 如 此 C447) 。 
来 看 个 从 tag 中 提取 HREF 属 性 的 例子 。HTML 的 属性 值 两 边 可 能 是 
双 引 号 、 单 引号 ， 或 者 干脆 没有 引号 ， 这 样 的 值 在 下 面 这 个 正则 表达 陈 
的 第 1 组 、 第 2 组 和 第 3 组 捕获 型 括号 中 被 捕获 : 
人 
Stag, 
Smatches, 
RPEG OFFSET CAPTURE) ; 


如 果 $tag 包 合 : 
<a name=bloglink href='http: //regex.info/blog/rel= " nofollow " > 
PLAC RK IZ la, $matchesh A 47: 
array 
( 
/* 全 局 匹配 的 数据 */ 
0 => array ( 0 => "href="http://regex.info/blog/'", 
b E d fo 
/* 第 1 组 括号 的 匹配 数据 */ 
1 => array ( 0 => "", 
1 => -1 ), 
/* 第 2 组 括号 的 匹配 数据 */ 
2 => array ( 0 => "http://regex.info/blog/", 
1 => 23 ) 
) 
$matches[0][0]#,4 E URARLAR CAS, $matches[0][1]#< 
7K DO AC CASE H PEF BP P,P ETT a 
为 了 清晰 起 见 ， 为 一 种 获得 $matches[0][0] 的 办 法 是 : 
substr($tag,$matches[0][1],strlen($matches[0][0])); 
$matches[1][1] 古 -1， 表 示 第 1 组 捕获 括号 没有 参与 风 配 。 第 3 组 也 没 
有 参与 ， 但 是 因为 之 前 提 到 的 理由 〈( 守 450) ， 结 尾 未 参与 由 配 的 捕获 
括 亏 匹配 的 文本 不 会 包含 在 $matches 中 。 
offset žy 
如 果 preg_match 中 设置 了 offset 5%, SASA H FITR RIX 
位 置 开始 (如 果 offset 是 负数 ， 则 从 字符 串 的 末尾 开始 倒数 ) 。 默 认 情 
部 下 ，offset 是 0 《也 就 是 说 ， 从 目标 字符 串 的 开头 开始 〉。 
请 注意 ，offset 是 按 字 节 计数 的 ， 即 使 使 用 了 模式 修饰 符 u 也 是 这 


(例如 从 菏 个 多 字 市 字符 的 “内 部 ”开始 ) 会 导致 匹 
配 失 败 。 

即使 offset 不 等 于 0，PHP 也 不 会 把 这 个 位 置 标 记 为 入 字符 串 的 
起 始 位 置 ， 它 只 表示 正则 引擎 开始 答 试 的 位 置 。 不 过 ， 逆 序 环视 倒是 可 
以 检查 offset 左 边 的 文本 。 





preg_match_all 
使 用 方法 


preg_match_all(pattern,subject,matches [,flags [,offset]]) 

参数 简介 

pattern 分 隅 从 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修 饰 剑 〈 志 
444) 。 

subject 需 要 检索 的 目标 字符 串 。 

matches 用 来 保存 匹配 数据 的 变量 〈 必 须 出 现 ) 。 

flags 非 强制 出 现 ， 标 志 位 设 定 整 个 函数 的 功能 : 

PREG OFFSET CAPTURE(S456) 

和 /或 任意 : 

PREG PATTERN ORDER(S455) PREG_ SET_ ORDER(S456) 

offset 非 强制 出 现 ， 从 0 开始 ， 表 示 目 标 字 人 符 串 中 匹配 笑 试 开始 的 位 
置 (与 preg_match 的 offset 参 数 相 等 和 453) 。 

返回 值 

preg_match_all 返 回 匹配 的 次 数 。 


不 包含 任何 内 容 的 匹配 ， 还 是 无 法 匹配 


preg match 返回 的 Smatches 中 ， 空 字符 串 表 示 对 应 的 括号 没有 参与 匹配 (当然 ， 数 
组 末尾 的 空 字 符 串 会 被 忽略 ) 。 因 为 匹配 结果 也 可 能 是 空 字符 串 ， 我 布 望 没有 参与 匹配 
的 括号 捕获 的 文本 是 NULL, 

所 以 ,我 自己 编写 了 一 个 preg match (我 称 其 为 zeg match) ,首先 使 用 PREG OFFSET 
CAPTURE 标志 位 来 获得 所 有 括号 内 的 自 表达 式 匹配 结果 的 详细 信息 ， 然 后 根据 这 些 信 
息 在 Smatches 中 将 对 应 的 值 设 为 NULL. 


function reg match ($regex, $subject, &smatches, Soffset = 0) 


| 


$result = preg match (sregex, $subject, $matches, 
PREG OFFSET CAPTURE, Soffset) ; 


if (Sresult) { 
Sf = create function('&$X', '$X = $X[1] < 0 ? NULL: 5X[0]; '); 
array walk($matches, $f); 

| 

return Sresult; 


| 
reg match 的 结 果 等 于 在 不 指定 任何 标志 位 的 情况 下 调用 preg match, 区 别 在 于 ， 如 
果 某 组 括号 没有 参与 匹配 ,在 preg match 中 对 应 的 元 素 为 空 字符 串 , 而 在 reg match 
中 变 成 了 NULL, 





讲解 

preg_match_all 类 似 于 preg_match， 只 是 在 找到 第 一 个 匹配 之 后 ， 它 
会 继续 搜索 字符 串 ， 找 到 其 他 的 匹配 。 每 个 匹配 都 会 创建 一 个 包含 匹配 
数据 的 数组 ， 所 以 最 后 matches 变量 就 是 一 个 二 维 数组 ， 其 中 的 每 个 子 
数组 对 应 一 次 匹配 。 

这 里 有 个 简单 的 例子 : 

if (preg match all('/<title>/i', $Shtml, $all_ matches) > 1) 

print "whoa, document has more than one <title>!\n"; 


preg_match_allZ2xk-M4 2 HINES TBA CH ze FORT ~Y) 


的 匹配 信息 的 变量 ) 。 所 以 ， 这 个 例子 中 虽然 没有 用 到 $all_matches， 
但 仍然 必须 设置 这 个 变量 。 


收集 匹配 数据 

preg_match 和 preg_match_all 的 男 一 个 主要 区 别 是 第 3 个 参数 中 的 数 
据 。Ppreg_match 进 行 至 多 一 次 匹配 ， 所 以 它 把 匹配 的 数据 存储 在 matches 
变量 中 。 与 此 不 同 的 是 ，preg_match_all 能 匹配 许多 次 ， 所 以 它 的 第 3 个 
参数 保存 了 多 个 单 次 匹配 的 matches。 为 了 说 明 这 种 区 别 ， 我 使 用 
$all_matches 作 为 preg_match_all 的 变量 名 ， 而 不 是 $preg_match 中 常用 的 
$Smatches. 

preg_match_all 可 以 以 两 种 方式 在 $all_matches 中 存放 数据 ， 根 据 下 
面 两 个 互 斥 的 第 4 个 参数 flag: PREG_PATTERN_ORDER 或 是 
PREG_SET_ORDER 来 决定 。 

默认 的 排列 方式 是 PREG_PATTERN_ORDER 下 面 有 个 例子 〈 我 称 
LY, 分 组 编号 的 《〈collated) ”一 一 稍 后 将 介绍 ) 。 如 末 没 有 设置 标志 
位 ， 这 就 是 默认 的 配 列 方式 : 


$subject = 
Jack A. Smith 

Mary B. Miller"; 

/* 不 设置 flags 就 采用 PREG PATTERN ORDER */ 

preg match all ('/*(\wt) (\w\.) (\wt)$/m', Ssubject, $all matches); 


$all matches 的 结果 为 : 


array 
( 
/* Sall_matches[0] 对 应 所 有 的 全 局 匹配 */ 
0 => array ( 0 => "Jack A. Smith", /* Bl1RERHSRTK */ 
1 => "Mary B. Miller" /* 第 2 次 匹配 的 全 部 文本 */ ), 


/* Sall matches[1] 对 应 第 1 组 捕获 型 括号 匹配 的 信息 */ 
1 => array ( 0 => "Jack", /* 第 1 次 匹配 中 的 第 1 组 捕获 型 括号 */ 
1 => "Mary" /* 第 2 次 匹配 的 第 1 组 捕获 型 括号 #7 Ie 


/* $all matches[2] 对 应 第 2 组 捕获 型 括号 匹配 的 信息 */ 
2 = array ( 0 = TAL", /* 第 1 次 匹配 中 的 第 2 组 捕获 型 括号 */ 
1 => "B." /* 第 2 次 匹配 中 的 第 2 组 捕获 型 括号 */ +), 


/* Sall matches[3] 对 应 第 3 组 捕获 型 括号 匹配 的 信息 */ 
3 => array ( 0 => "Smith", /* 第 1 次 匹配 中 的 第 3 组 捕获 型 括号 a / 
1 => "Miller" /* 第 2 次 匹配 中 的 第 3 组 捕获 型 括号 */ ) 


一 共 上 匹配 了 两 次 ， 每 次 都 包 侣 一 个 “全 局 匹配 ?字符 串 ， 以 及 3 个 捕 
获 型 括号 对 应 的 子 字 人 符 串 。 我 称 其 为 “ 近 分 组 编号 的 〈collated) ”， 因 为 
所 有 的 全 局 匹配 都 存放 在 一 个 数组 里 (在 $all_ matches[0]， 每 次 匹配 
， 第 1 组 括号 配 的 文本 存放 在 另 一 个 数组 $all_matches[1] 中， 依次 次 

PRU taut F ’ $all matches7e 7% 分 组 编写 的 ’ 但 我 们 可 设置 
PREG SET ORDER 来 改变 它 。PREG SET ORDER 排列 方式 如 果 设 
定 了 PREG_SET_ORDER 标志 位 ， 束 会 采用 “ 扒 登 〈stacked) ”的 排列 方 
式 。 它 会 把 第 1 次 匹配 的 所 有 数据 保存 在 $all_matches[0] 中 ， 第 2 次 匹 
配 的 所 有 数据 保存 在 $all_matches[1] 中 ， 依 次 类 推 。 这 束 是 我 们 检索 字 
从 串 的 顺序， 把 每 次 成 功 风 配 的 $matches 放 进 $all_matches 数 组 中 。 

下 面 是 之 前 那个 例子 的 PREG_SET_ORDER 的 版 本 : 

$subject = " 


Jack A. Smith 
Mary B. Miller"; 


preg match all('/*(\wt) (\w\.) (\wt)$/m', $subject, $all matches, PREG SET ORDER) ; 
ZIRE: 


array 
( 
/* Sall matches[0] $A f preg match 的 Smatches */ 
0 => array (0 => "Jack A. Smith", /* 第 1 次 整体 匹配 */ 


1 => "Jack", /* 第 1 次 整体 匹配 的 第 1 个 捕获 型 括号 */ 
2 => "AL", /* 弟 1 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
3 => "Smith" /* 第 工 次 整体 匹配 的 第 3 个 捕获 型 括号 */ )， 


/* Sall matches[1] 等 价 于 preg match 的 Smatches */ 
1 => array (0 => "Mary B. Miller", /* 弟 1 次 整体 匹配 */ 


1 => "Mery", /* 第 2 次 整体 匹配 的 第 1 个 捕获 型 括号 */ 
2 =5 "B,", /* 第 2 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
3 => "Miller" /* 第 2 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ), 


两 种 排列 方式 的 总 结 如 下 : 


x 到 HARTA 
将 各 次 匹配 中 同样 编号 的 分 组 纺 在 一 起 


$all matches[$paren num] [$match num] 


四 $all matches [$match num] [Sparen num] 


preg_match_all 和 PREG_OFFSET_CAPTURE 标 志 位 

WA preg match 一样， 也 可 以 在 ”preg_match al 中 使 用 
PREG_OFFSET_CAPTURE， 让 $all_matches 的 每 个 末端 元 素 (leaf 
element) 成 为 一 个 两 个 元 素 的 数组 (还 配 的 文本 ， 以 及 按 字 节 计 算 的 偏 
移 值 ) 。 也 就 是 说 ，$all_matches 成 为 一 个 数组 的 数组 的 数组 ， 这 可 真 
饶舌 。 如 果 你 希望 同时 使 用 PREG_OFFSET_CAPTURE 和 
PREG_SET_ ORDER， 请 使 用 忆 辑 运算 符 “or" 来 连接 

preg match all($pattern, $subject, $all matches, 

PREG OFFSET CAPTURE | PREG SET ORDER) ; 


preg_match_all 与 命名 分 组 


如 果 使 用 了 命名 分 组 ，$all_matches 将 会 多 出 命名 元 素 〈 同 
preg _match—##3"451) 。 这 段 程序 : 


PREG PATTERN ORDER 








$subject = " 

Jack A. Smith 

Mary B. Miller"; 

/* 不 设置 flags 就 采用 PREG PATTERN ORDER */ 

preg match all('/^(?P<Given>\w+) (?P<Middle>\w\.) (?P<Family>\w+)$/m', 
subject, $all matches); 


$all matches 的 结果 是 : 


array 
tr Q => array ( 0 => "Jack A. Smith", 1 => "Mary B. Miller" ), 
"Given" => array ( 0 => "Jack", 1 => "Mary" ), 
1 => array ( 0 => "Jack", 1 => "Mary" ), 
"Middle" => array ( 0 => "A.", i =e ST ) ， 
2 => array (0 => "A.", L =o “B” hy 
"Family" => array ( 0 => "Smith", 1 => "Miller"), 
3 => array ( 0 => "Smith", 1 => "Miller" ) 


如 果 使 用 PREG_SET_ ORDER: 


$subject = " 

Jack A. Smith 

Mary B. Miller"; 

preg match all('/*(?P<Given>\w+) (?P<Middle>\w\.) (?P<Family>\wt)$/m', 
subject, $all matches, PREG SET ORDER) ; 


Zi RIE: 


array 


( 


0 => array (0 => “Jack A. Smitha", 
Given => "Jack", 
L => "Jack", 
Middle => "A.", 
2 => "A. ar 
Family => "Smith", 
3 => "Smith" ), 
1 => array (0 => "Mary B. Miller", 
Given => "Mary", 
1 => "Mary", 
Middle => "B.", 
2 = "Bas 
Family => "Miller", 
3 => "Miller" ) 


) 

我 个 人 认为 ， 在 使 用 了 命名 分 组 之 后 ， 就 应 该 去 挥 数 字 编 号 ， 因 为 
AA 效率 更 高 ， 不 过 ， 如 果 它 们 被 你 留 了 ， 你 可 以 当 它 们 
\ 存 和 在。 


preg_replace 


使 用 方法 

preg_replace(pattern,replacement,subject [,limit [,count]]) 

参数 们 介 

pattern 分 隅 符 包 围 起 来 的 正则 表达 式 ， 可 能 出 现 修 饰 符 。pattern 也 
可 能 是 一 个 pattern-argument 字 人 符 串 的 数组 。 

replacement replacement 字 人 符 串 ， 如 果 pattem 古 一 个 数组 ， 则 
replacement 是 包含 多 个 字符 串 的 数组 。 如 果 使 用 了 模式 修饰 他 e， 则 字 
符 串 〈 或 者 是 数组 中 的 字符 串 ) 会 补 当 作 PHP 代 人 码 (459) . 
Fis 的 目标 字符 串 。 也 可 能 是 字符 串 数 组 〈 按 顺序 依次 

g 

limit 非 强制 出 现 ， 是 一 个 整数 ， 表 示 蔡 换 友 生 的 上 限 ( 寺 460) 。 

count 非 强制 出 现 ， 用 来 保存 实际 进行 的 答 换 次 数 〈 只 有 PHP5 提 
fit, =460) 。 

返回 值 

WMR subject 是 单个 字符 串 ， 则 返回 值 也 是 一 个 字符 串 (subject 的 


副本 ， 可 能 经 过 修改 ) 。 
如 果 Ssubject 是 字符 串 数 组 ， 返 回 值 也 是 数组 〈 包 含 subject 的 副本 ， 
可 能 经 过 修改 ) 。 
讲解 
PHP 提供 了 许多 对 文本 进行 得 找 - 答 换 的 办 法。 如 采 玛 找 部 分 可 以 
用 普通 的 字符 串 摘 述 ，str_replace 或 者 str_ireplacept EGE, (AUR 
ARERR, WME preg_replace. 
来 看 一 个 简单 的 例子 : 在 Web 开 及 中 经 第 会 过 到 这 样 的 任务 ， 把 信 
用 卡号 或 电话 写 公 输入 一 张 表单 。 你 是 合 经 党 看 到 “不 要 输入 空格 和 连 
FIP RIPER? 要求 用 户 按 规则 输入 数据 ， 还 是 由 程序 员 做 一 点 小 小 的 
改进 ， 让 用 户 可 以 照 目 己 的 习惯 输入 数据 ? 哪 种 办 法 更 好 ( 注 3) ? EB 
范 ， 这 里 我 们 的 要 求 束 是 “清理 ”这 样 的 输入 数据 : 
scard number = preg replace('/\Dt/", * *, $Scand_number) ; 
/* Scard number 只 包含 数字 ， 或 者 为 空 */ 


其 中 用 preg_replace 来 去 折 非 数字 字符 。 更 确切 的 说 ， 它 用 
preg_replace 来 生成 $card_number 的 副本 ， 将 其 中 的 非 数 字 字 符 符 换 为 
室 《 容 字符 串 ) ， 把 这 个 经 过 修改 的 副本 赋值 给 $card_number。 

单字 符 串 ， 单 蔡 换 规则 的 preg_replace 

前 面 三 个 元 素 (pattern, replacement 和 subject) 都 是 既 可 以 为 字符 
串 ， 也 可 以 为 字符 串 数组 。 通 向 这 三 者 都 是 普通 的 字符 早 ，preg_replace 
首先 生成 subject 的 副本 ， 在 其 中 找到 pattern 的 第 1 次 匹配 ， 将 匹配 的 文 
本 和 丛 换 为 replacement， 然 后 重复 这 一 过 程 ， 直 到 搜索 到 字符 捉 的 末尾 。 

在 replacement 字 人 符 串 中 ，'50" 表 示 匹 配 的 所 有 文本 ，'“$91 表 示人 第 1 组 
捕获 型 括 亏 匹配 的 文本 ，'542: 表 示 第 2 组 ， 依 次 类 推 。 请 注意 ， 美 元 符 加 
数字 的 字符 序列 并 不 会 引用 变量 ， 虽 然 它 们 在 其 他 茶 些 语言 中 有 这 种 功 
能 ， 但 是 preg replace 能 识别 简单 的 序列 ， 并 进行 特殊 处 理 。 你 可 以 使 
用 一 对 论 括号 来 包围 数字 ， 比 如 ‘${0} 和 和 ${1}”， 这 样 就 不 会 引起 泥 
iF o 

这 个 徐 单 的 例子 把 HTML 的 bold tag 转 换 为 全 部 大 写 : 

$html=preg_replace(‘Ab[A-Z]{2, }\b/','<b>$0</b>', $html); 

如 果 使 用 了 模式 修饰 从 e( 它 只 能 出 现在 preg_replace 中 )， 
replacement 字 和 从 串 会 作为 PHP 代 人 码 ， 每 次 匹配 时 执行 ， 结 果 作 为 
replacement 字 符 串 。 下 面 这 个 扩展 的 例子 把 bold tag 里 的 单词 变 为 小 写 : 

$html = preg replace('/\b[A-Z]{2,}\b/e', 
"Strtolower ("<b>s0</b>")", 
Sms 


如 果 正 则 表达 式 匹 配 的 单词 是 HEY"'，replacement 字 人 符 串 中 的 $0 会 
AAS PRAIX Me AR, replacement TFE Wi J ‘strtolower C" <b> 
HEY </b>" ) ’, $M4TIXECPHP(UAY, ZW‘ <b>hey</b>’. 

如 果 使 用 模式 修饰 符 e, replacement 字符 串 中 的 捕获 引用 会 按照 特 
殊 的 规定 来 插值 : 插值 中 的 引号 〈 单 引号 或 双 引 号 ) 会 转 义 。 如 果 不 这 
样 处 理 ， 插 入 的 数值 中 的 引号 会 导致 PHP 代码 出 钳 。 

如 果 使 用 模式 修饰 符 e， 在 replacement 字 符 串 中 引用 外 部 变量 ， 最 
A 写 ， 这 样 变 量 就 不 会 进行 错误 

这 个 例子 类 似 于 PHP 内 建 的 htmlspecialchars O pk 2X: 

Sreplacement = array ( '&' => '&amp; ', 

<<" =<> "Files *, 

iY => toer *, 

Ne == "Founete *); 

$new_subject=preg replace ('/[&< " >J/eS', '$Sreplacement[ " $0 

"T, $subject) ; 需要 注意 ， 这 个 例子 中 的 replacement 使 用 了 单 引 号 字 
符 串 来 避免 $replacement 变 量 插值 ， 直 到 将 其 作为 PHP 代 但 执行 。 如 果 
使 用 双 引 号 字符 串 ， 在 传递 给 preg_replace 之 前 ， 搬 值 束 会 进行 。 

可 以 用 模式 修饰 符 $ 用 来 提高 效率 (478) 。 

preg_replace 的 第 4 个 参数 用 来 设 定 人 答 换 操作 次 数 的 上 限 “〈 单 位 是 
— EE BWR") 。 默 认 值 是 -1， 表 示 “ 没 有 

|”. 

如 果 设 置 了 第 5 个 参数 count (PHP4 没 有 提供 ) ， 它 会 用 来 保存 
preg_replace 的 实际 人 奉 换 的 次 数 。 如 末 你 希望 知道 是 合肥 生 了 符 换 ， 可 以 
比较 原来 的 目标 字符 串 和 结果 ， 不 过 检查 count 参 数 效 率 更 局。 

BPR, BFA 

Hi HOAs, Hr REER, Sb STA AA 
到 的 所 有 例子 都 是 如 此 。 不 过 ，subject 也 可 以 是 一 个 字符 串 数 组 ， 这 样 
搜索 和 答 换 是 对 每 个 字符 串 依 次 进行 的 。 返 回 值 也 是 由 每 个 字符 串 经 过 
搜索 和 答 换 之 后 的 数组 。 

无 论 使 用 的 是 字符 串 还 是 字符 串 数 组 ，pattern 和 replacement 参 数 也 
可 以 是 字符 串 数组 ， 下 和 面 是 各 种 组 合 及 其 意义 : 


Pate fis 


pe a 应 用 pattermm， 将 每 次 匹配 的 文本 替换 为 replacement 
数组 字符 串 轮流 应 用 pattern， 将 每 次 匹配 的 文本 替换 为 replacement 
字符 吊 轮流 应 用 pattern, 将 每 次 匹配 的 文本 替换 为 对 应 的 replacement 


数组 不 容许 
如 果 subject 参 数 是 数组 ， 则 依次 处 理 数 组 中 的 每 个 元 叉 ， 返 回信 也 
E TIT RAH 
请 注意 limit 参 数 是 以 单个 pattern 和 单个 Subject 为 单位 的 。 它 不 是 对 
所 有 有 的 pattern 和 和 subject 和 生效 。 返 回 的 $count 则 是 所 有 patterm 和 subject 字 符 
串 所 进行 操作 次 数 的 总 合 。 
这 里 有 一 个 preg_replace 的 例子 ， 其 中 pattern 和 replacement 者 十 数 
组 。 其 结果 类 似 于 PHP 内 建 的 htmlspecialchars © 函数 ， 它 保证 处 理 过 
Scooked = preg replace ( 
/* REMAXK... */ array('/&/', '/</", '/>/", "/"/" ), 
/* BRBNTHK... a array ("eamps'; 'Slte'; lato"; “hanote'), 
/* ., .要 操作 的 目标 字符 串 */ $text 
) ; 
如 果 输 入 的 文本 是 : 
AT&T--> " baby Bells " 
$cooked HR Wize : 
AT&T--&gt;&quot;baby Bells&quot; 
当然 也 可 以 预先 准备 好 这 些 数 组 ， 下 面 的 程序 运行 结果 相同 : 
Spatterns = aAveay( t/a?» "FES, Yr TUF? J 
Sreplacements = array('&amp;', ‘'&lt;', '&gt;', '&quot;'); 


scooked = preg replace(Spatterns, Sreplacements, $text); 


preg replace ”能够 接收 数组 作为 参数 是 很 方便 的 〈 这 样 程序 员 职 不 
需要 使 用 循环 在 各 个 pattermm 和 subject 中 进行 迭代 ) ， 但 是 它 的 功能 并 没 
有 增强 。 比 如 ， 各 个 pattern 并 不 是“ 并 行 * 处 理 的 。 但 是 ， 相 比 目 己 瑟 
PHP 人 循环 代码 ， 内 建 的 处 理 效 这 更 局 ， 而 且 更 容易 阅读 。 为 了 说 清楚 ， 
请 参考 这 个 例子 ， 其 中 所 有 的 参数 都 是 数组 : 


$result_array=preg_replace($regex_array,$replace_array,$subject_array) 


它 等 价 于 : 
?result array = array(); 
foreach ($subject array as $subject) 
{ 
reset ($regex array); // 准备 遍历 两 个 数组 
reset (Sreplace array); // 把 数组 指针 恢复 到 开头 位 置 


while (list(,$regex) = each ($regex array) ) 


{ 


list (,$replacement) = each ($replace array); 
// regex 和 replacemnet 已 经 准备 就 绪 ， 应 用 到 subject ... 
ssubject = preg replace(Sregex, $Sreplacement, Ssubject); 
) 
// 已 经 处 理 完 所 有 的 regex, W subject tA ZÆ... 
$result array[] = $subject; // ... 附 加 到 结果 数组 中 


数组 参数 的 排序 问题 如 果 pattern 和 replacement 都 是 字符 串 ， 它 们 会 
根据 数组 的 内 部 有 顺序 配对 ， 这 种 顺序 通 第 吏 是 它们 深 加 到 数组 中 的 驳 后 
顺序 (pattern 数组 中 添加 的 第 1 个 元 素 对 应 replacement 数组 中 的 第 1 个 
元 系 ， 依 次 奖 推 ) 。 也 残 是 说 ， 对 于 array O 创建 的 “文本 数组 ”来 说 ， 
排序 没有 问题 ， 例 如 : 


Ssubject = "this has 7 words and 31 letters"; 


$result = preg replace(array('/[a-z]+/', '/\d+/'), 
array ("word<5S0>', “num<S0>"), 
Ssubject) ; 


print "result: Sresult\n"s 
| [a-z]+ XT )v‘word<$0>’, FEHI \d+ 对 应 "num<$0>:， 结 果 残 

FE 

result: word<this> word<has> num<7> word<words> word< 
and num<31> word<letters>#H)Z, UNR pattern 或 replacement 数组 
EZ TRIRRN, BANA aA Al eR ATA keysh IiE Cth te we, 
由 keys 表示 的 数字 有 顺序) 。 上 所 以 前 一 页 的 程序 使 用 数组 模拟 
preg_replacement 的 程序 要 使 用 each 来 按照 数组 的 内 部 顺序 遍历 整个 数 
组 ， 而 不 关心 它们 的 keys 如 何 。 

如 果 pattern 或 replacement 数组 的 内 部 顺序 不 同 于 你 希望 匹配 的 顺 
序 ， 可 以 使 用 ksort ©) 函数 来 确保 每 个 数组 的 实际 顺序 和 外 表 顺 序 是 


相同 的 。 

如 果 pattern 利 replacement 都 是 数组 ， 而 pattern 中 元 系 的 数目 多 于 
replacement 中 的 元 素 ， 则 会 在 replacement 数 组 中 产生 对 应 的 空 字符 串 ， 
来 进行 配对 。 

pattern 数组 中 的 元 系 顺 友 不 同 ， 结 末 可 能 大 不 相同 ， 因 为 它们 是 按 
照 数 组 中 的 顺序 来 处 理 的 。 如 果 把 例子 中 的 pattern 数 组 的 顺序 了 其 倒 过 来 

(把 replacement 数 组 中 的 顺序 也 早 倒 过 来 ) ， 结 条 是 什么 呢 ? the 
说 ， 和 下面 代码 的 结 来 是 什么 呢 ? 
Ssubject = "this has 7 words and 31 letters"; 
Sresult = preg replace(array('/\d+/', '/[a-z]+/'), 
array (*num<\0>', “word<\0>"), 
Ssubject) ; 
print "results Sresult\n"; 


w 请 翻 到 下 页 得 看 答案 。 
preg_replace_callback 
使 用 方法 


preg_replace_callback (pattern, callback, subject [, limit E 
count]]) B22 taj st 


pattern 分 阳 从 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 从 Cs 
444) 。 也 可 能 是 字符 串 数 组 。 

callback PHPH IRZ BERIL, WAITE, ÆR 
replacement TIF E « 


P subject 需要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数 组 〈 依 次 处 
理 ) 。 
limit 非 强制 出 现 ， 设 定 瞪 换 操 作 的 上 限 (460) 。 
count 非 强制 出 现 ， 用 来 傈 存 实际 发生 答 换 的 次 数 〈 只 在 PHP 5.1.0 
中 提供 ) 。 

1K [Al 4E 

如 果 subject 是 字符 串 ， 返 回 值 就 是 字符 串 (其 实 是 subject 的 一 个 副 
本 ， 可 能 经 过 了 修改 ) 。 如 果 subject 是 字符 串 数 组 ， 返 回 值 就 是 数组 
(每 个 元 和 聚 都 是 subject 中 对 应 元 聚 的 副本 ， 可 能 及 生 了 修改 ) 。 

讲解 

preg_replace_callback 类 似 于 preg_replace， 只 是 replacement #24 
成 了 PHP 回调 函数 ， 而 不是 字符 串 或 是 字符 串 数组 。 它 有 护 像 使 用 模式 


修饰 符 e 的 preg_replace (459) ， 但 是 效率 更 高 〈 如 果 replacement 部 分 
aire Mtn car 
参考 PHP 文 档 获得 更 多 关于 回调 的 知识 ， 不 过 简单 地 说 ，PHP 回 
调 引用 (以 许多 种 方式 中 的 一 种 ) 一 个 预先 规定 的 函数 ， 以 预先 规定 的 
参数 ， 返 回 预 先 规 定 的 值 。 在 preg_replace_callback ”中 ， 每 次 成 功 匹 配 
之 后 都 会 进行 这 种 调用 ， 人 参数 是 $matches ZUH o PRAY I IIE FF 
preg_replace_callback/—£ Areplacement. 
回调 可 以 以 三 种 方式 引用 函数 。 一 种 是 直接 以 字符 串 形 式 给 出 函数 
名 ; 男 一 种 是 用 PHP 内 建 的 create function ER — PEH PA Bo Pool 
会 看 到 使 用 这 两 种 方法 的 例子 。 第 三 种 方式 本 书 没有 提 及 ， 筷 采用 面 辐 
MRNA, HOSES AT ICR OIERA MIEZ) 的 数组 构 


成 。 
测验 答案 


可 462 页 问题 的 答案 
462 页 问题 中 的 程序 运行 结果 如 下 (为 了 适应 排版 ， 进 行 了 折 行 ) 


result: word<this> word<has> word<num><7> word<words> 
word<and> word<num><31> word<letters> 


如 果 这 两 处 粗 体内 容 出 乎 你 的 意料 ， 原 因 在 于 ， 使 用 多 个 正则 表达 式 的 preg match 
(使 用 pattern 数组 ) 并 不 会 ”并行 ”处 理 这 些 pattern， 而 是 依次 进行 。 


在 这 个 例子 中 ， 第 1 组 pattern/replacement 会 在 subject 中 添加 两 个 num<…> ,这 两 个 
‘num’ 会 被 数组 中 的 下 一 个 pattern 匹配。 然后 每 个 “num BR word<num> ,最 
终 得 到 这 个 意料 之 外 的 结果 。 

这 个 例子 告诉 我 们 ， 如 果 preg replace 使 用 了 多 个 pattern， 一 定 要 注意 安排 它们 的 
WF 





下 面 这 个 例子 用 preg_replace_callback 和 辅助 函数 重 写 了 第 460 页 的 
程序 。callback 参 数 是 一 个 字符 串 ， 包 含 辅助 疯 数 的 名 字 : 


Sreplacement = array ( '&' => 'éamp;', 


和 se tao "y 
ts! 一 > wo 
| => Suot" z 


/ x 
* 匹配 成 功 之 后 ，$matches [0] 中 保存 的 是 需要 转换 为 HTML 的 字符 串 ， 以 此 为 接受 参数 ， 返 回 
* HIML 字符 囊 。 因 为 此 济 数 只 在 确保 安全 的 情况 下 调用 ， 此 处 不 考虑 意外 情况 
ai 
function textzhtml callback (Smatches) 
| 
global Sreplacement; 
return Sreplacement [Smatches[0]]; 


| 


snew subject = preg replace callback('/[&<">]/S', /* pattern */ 
"text2html callback", /* callback */ 
Ssubject) ; 
如 果 $subject 的 值 是 : 


" AT&T" sounds like " ATNT " 

Wil$new_subjectHJ (Bate: 

&quot;AT & T&quot;sounds like&quot; ATNT&quot; 

本 例 中 的 text2html_callback 是 普通 的 PHP 函 数 ， 用 作 
preg_replace_callback 中 的 回调 函数 ， 它 的 接收 参数 是 gmatches 数 组 C 
， 这 个 变量 可 以 随意 命名 ， 不 过 我 选择 夫人 循 之 前 使 用 $matches 的 惯 

列 ) 。 

为 完整 起 抑 ， 下 面 我 给 出 使 用 匿名 函数 的 办 法 《使 用 PHP 内 建 的 
create _functionPAl 2%) 。 这 段 程序 产生 的 $replacement 变 量 与 上 面 一 样 。 
~ -i 同 ， 只 是 此 时 函数 没有 名 字 ， 只 能 在 preg_replace_callback 中 


snew subject = preg replace callback('/[&<">]/S', 
create function('Smatches', 
'global Sreplacement; 
return Sreplacement[$matches[0]];'), 
Ssubject) ; 


使 用 callback， 还 是 模式 修饰 符 e 

如 采 处 理 不 复杂 ， 使 用 模 陈 修饰 符 的 程序 比 preg_replace_callback 更 
容 多 看 收 。 人 但是， 如果 效 率 很 重要 ， 那 么 请 记 住 ， 如 条 使 用 模式 修饰 符 
e， 每 次 匹配 成 功 之 后 都 需要 检查 作为 PHP 代 码 的 replacement 参 数 。 相 比 


之 下 ，preg_replace_callback 的 效 京 束 要 局 许多 (如 果 使 用 回调 ，PHP 代 
IIR i ELK) 。 


preg_split 
使 用 方法 
preg_split(pattern,subject [,limit,[flags]]) 
BBS faj JP 
pattern 分 卫生 包围 起 来 的 正则 表达 式 ， 可 能 还 有 修饰 从 CS 
444) 。 


subject 需要 分 割 的 目标 字符 串 。 
ljimit 非 强制 出 现 ， 是 一 个 整数 ， 表 示 切 分 之 后 元 素 的 上 限 。 
出 现 ， 此 标志 位 影 啊 整 个 切割 行为 ， 以 下 三 项 可 以 随意 
PREG SPLIT NO EMPTY 
PREG SPLIT DELIM CAPTURE 
PREG SPLIT OFFSET CAPTURE 
CRTR HEMEN. BS i MEH = 0 A BY RIE 
接 ( 与 第 456 页 一 样 )。 
返回 值 
返回 一 个 字符 串 数组 。 
讲解 
preg_split 会 把 字符 串 的 副本 切 分 为 多 个 片段 ， 以 数组 的 形式 返回 。 
非 强 制 出 现 参 数 ]limit 设 定 返 回 数组 中 元 系数 目的 上 限 〈 如 末 需 要 ， 最 后 
的 元 素 包 括 “ 其 他 所 有 字符 ”) 。 可 以 设 定 不 同 的 标志 位 来 调整 返回 的 方 
式 和 和 内容。 
从 东 种 意义 上 来 说 ，preg_split 做 的 是 与 preg_match_all 相 反 的 事 
Te: 它 找 出 目标 字符 串 中 不 能 由 正则 表达 式 匹 配 的 部 分 。 或 者 更 传统 地 
说 ，preg_split 返 回 的 是 ， 将 目标 字符 串 中 正则 表达 式 匹 配 的 部 分 删 去 之 
后 的 部 分 。preg_split 大 概 相 当 于 PHP 中 内 建 的 简单 explode 函 数 ， 不 过 
使 用 的 是 正则 表达 式 ， 而 且 功 能 更 强大 。 
来 看 个 简单 的 例子 ， 如 条 和 家 金融 网 站 需要 接收 用 空格 分 隔 的 股票 
行情 。 可 以 使 用 explode 拆 分 这 些 行情 数据 : 
$tickers=explode(", $input); 
不 过 ， 如 果 输 入 数据 时 不 小 心 输入 了 不 只 一 个 空格 ， 这 个 程序 束 不 


能 处 理 了 。 更 好 的 办 法 是 使 用 preg_split， 用 正则 表达 式 \s+ 来 切 分 : 
$tickers=preg_split('^s+/,$input); 

BR S HSH HATRA Ry HP tes AE SC 
者 是 喜 号 加 空格 ) KIM, U YHOO, MSFT, GOOG’. iX tei mt 
很 容易 处 理 : 

$tickers=preg_split('/[\s, ]+/',Sinput); 

针对 上 和 面 的 数据 ，$tickers 得 到 的 是 包含 3 个 元 素 的 数 
ZH: ‘YHOO’, ‘MSFT’ GOOG’. 

UMRA WA eS OT BE AE HR Fra id tag 时 使 用 的 “Web 
2.0; ”) , Wm [\s*, \s* 来 处 理 : 

$tags=preg_split('^s * ,\s * /',$input); 

比较 sk, \s* 和 "Ts，]+ 很 能 说 明 问题 。 前 者 用 逗号 来 切 分 (去 
写 必 须 出 现 ) ， 但 也 会 删 去 逗号 两 边 的 空 昌 字符。 如 果 输 入 ‘123，，， 
456’， 则 能 够 进行 3 次 匹配 (每 次 逻 配 一 个 皖 号 ) ， 返 回 4 个 元 
A: 123, ANETTE, tela ‘456’. 

AF, Ts, + RAE Ss. ANS. BAH, Bk 
者 是 空 日 字 从 和 逗号 的 结合 来 切 分 。 在 ‘123，，，456’ 中 ， 它 一 次 束 能 
史 配 3 个 如 写 ， 返 回 两 个 元 系 ，“123’ 和 ‘456’。 

limit 参 数 

limit 参数 用 来 设 定 切 分 之 后 数组 长 度 的 上 上限。 如果 搜 索 尚 未 进行 到 
字符 串 结 尾 时 ， 切 分 的 片段 的 数目 己 经 达到 ]imit， 则 之 后 的 内 容 会 全 部 
你 存 到 最 后 的 元 系 当 中 。 

来 看 个 例子 ， 我 们 需要 手工 解析 服务 右 返 回 的 HTTP response. J% 
照 标准 ，header 和 body 的 分 隔 是 四 字符 序列 ArnNn' ， 不 等 的 是 ， 有 的 
服务 硕 使 用 的 却 是 nn 。 圣 好， 我 们 有 preg_split， 很 容易 处 理 这 两 种 
情况 。 假 设 整 个 response 保 存在 $response 中 : 

$parts=preg_split(‘Ar?\n\r?\n/x',Sresponse,2); 

header 保 存在 $parts[0] 中 ， 而 body 保 存在 $parts[1] 中 〈 使 用 模式 修饰 
人 符 S 是 为 了 提高 效率 号 478) 。 

第 3 个 参数 ， 即 limit 的 值 等 于 2， 表 示 subject 字 符 串 最 多 只 能 切 分 成 
两 个 部 分 。 如 末 找 到 了 一 个 匹配 ， 匹 配 之 前 的 部 分 〈 也 就 是 header) 会 
成 为 返回 值 的 第 一 个 元 系 。 因 为 “字符 串 的 其 他 部 分 ”是 第 2 个 元 系 ， 这 
RE EEEN RI 
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如 果 没 有 limit( 或 者 limit 等 于 -1， 这 两 种 情况 是 等 价 的 〉， 


preg&_split 会 尽 可 能 多 地 切 分 Subject 字 人 符 串 ， 这 样 body 可 能 也 会 和 & 切 分 为 
许多 段 。 设 置 上 限 并 不 能 保证 返回 的 数组 中 包含 的 元 素 就 等 于 这 个 数 ， 
而 只 是 保证 最 多 包含 这 么 多 元 素 〈 阅 读 关 于 
PREG_SPLIT_DELIM_CAPTURE 的 小 节 ， 你 会 发 现 甚至 这 种 说 法 也 不 
完全 对 ) 。 

在 两 种 情况 下 ， 应 该 人 为 设置 上 限 。 我 们 已 经 见 过 一 种 情况 : 名望 
最 后 的 元 素 包 含 “ 其 他 所 有 内 容 *。 在 前 一 个 例子 中 ， 一旦 第 一 段 
(header) 被 切 分 出 来 ， 我 们 就 不 希望 再 对 其 他 部 分 (body〉 进行 切 
分 。 所 以 ， 把 上 限 设 为 2 会 你 留 body。 

如 条 用 户 知 道 目 己 不 需要 切割 出 来 所 有 元 系 ， 也 可 以 设 定 上 限 ， 提 
高 效率 。 例 如 ， 如 果 $data 字 符 串 包含 以 \s 炎 ，\s 淡 分 隅 的 许多 字段 
(比如 姓名 、 地 址 、 年 龄 ， 等 等 ) ， 而 只 需要 前 面 两 个 ， 就 可 以 把 limit 
设置 为 3， 这 样 preg_split 在 切 分 出 前 两 个 字段 之 后 就 不 会 继续 工作 : 

$fields=preg_split(‘/\s * ,\s * /x',$data,3); 

这 样 其 他 内 容 都 保存 在 最 后 的 第 3 个 元 素 中 ， 我 们 可 以 用 array_pop 
来 删除 ， 或 者 置之不理 。 

如 果 你 希望 在 没有 设置 上 限 的 情况 下 使 用 任何 preg_split 标 志 位 (下 
一 节 讨 论 ) ， 则 必须 提供 一 个 占 位 人 符 ， 将 limit 设 置 为 -1， 它 表示 “没有 限 
制 ”。 相 反 ， 如 果 limit 等 于 1， 则 表示 “不 需要 切 分 ”所 以 它 并 不 党 用。 
上 限 等 于 0 或 者 -1 之 外 的 任何 负数 都 没有 定义 ， 所 以 请 不 要 使 用 它们 。 

flag? 2 

preg_split F AJ LE H AY 3 in ies i Abe 2 PRA De. EMMA eA 
单独 使 用 ， 也 可 以 用 二 元 运算 符 *“or" 连 接 〈 参 见 第 456 页 的 例子 ) 。 

PREG_SPLIT_OFFSET_ CAPTURE ”就 像 在 。 preg_match 和 
preg_match_all 中 使 用 PREG_OFFSET_CAPTURE 一 样 ， 这 个 标志 位 会 
修改 结果 数组 ， 把 每 个 元 素 变 为 包含 两 个 元 北 的 数组 《元 兹 本 号 和 它 在 
字符 串 中 的 偏 移 值 〉。 

PREG_SPLIT_NO_EMPTY ”这 个 标志 位 告诉 preg_split 忽 略 空 学 符 
串 ， 不 把 它们 放 在 返回 数组 中 ， 也 不 记 入 limit 的 统计 。 对 目标 字符 串 的 
起 始 位 置 、 绪 尾 位 置 ， 或 是 至 行 的 匹配 ， 都 会 带 来 空 字符 串 。 

下 和 面 来 改进 前 面 的 “Web ”2.0” 的 tag 的 例子 (号 466) ， 如 果 $input 
Ay‘party, » fun’, AA: 

$tags=preg_split('/\s * ,\s * /x', $input); 

得 到 的 $tags 包 含 3 个 元 素 : ‘party’. PATH, Wake fun’. FF 
符 串 是 去 号 的 两 次 匹配 之 间 的 “空白 ”。 


如 果 设 置 了 PREG_SPLIT_ NO_EMPTY 标志 位 : 

$tags=preg_split(‘\s * ,\s * /x',Sinput,-1,PREG_ SPLIT_NO_EMPTY); 

结果 数组 只 包 售 ‘party’ 和 ‘fun’。 

PREG_SPLIT_DELIM_CAPTURE 这 个 标志 位 在 结果 中 包含 匹配 的 
文本 ， 以 及 进行 此 次 切 分 的 正则 表达 式 的 捕获 括号 匹配 的 文本 。 来 看 个 
简单 的 例 玫 ， 如 果 字 符 串 中 各 个 字段 是 以 and: 和 “or 来 联系 的 ， 例 如 ; 

DLSR camera and Nikon D200 or Canon EOS 30D 

如 果 不 使 用 PREG_SPLIT_DELIM CAPTURE, 

$parts=preg_split(AMs+(andlor)\s+/x',$input); 

得 到 的 $parts JÈ: 

array ('DLSR camera','Nikon D200','Canon EOS 30D') 

Oy ba FF PANDORA Aaa. ME, OR EA T 
PRE_SPLIT_DELIM_CAPTURE 标志 位 《并且 用 -1 作为 limit 参 数 的 占 位 
付 ) : 

Sparts = preg split('/\s+ (andlor) Vet /x', Sinput, -1, 
PREG SPLIT DELIM CAPTURE) ; 
$parts 包 含 了 捕获 型 括 亏 匹配 的 分 隔 符 : 

array (DLSR camera ,and,Nikon D200','or',Canon EOS 30D 

此 时 ， 每 次 切 分 会 在 结果 数组 中 增加 一 个 元 际 ， 因 为 正则 表达 却 中 
只 有 一 组 捕获 型 括号 。 然 后 我 们 束 能 够 退 历 $parts 中 的 元 系 ， 对 找到 
的 "and: 和 “or 进行 特殊 处 理 。 

vee, WARE Sse RAE Ss COUR pattern BALA ‘Ast C? : 
andjor) \s+/?) , PREG SPLIT DELIM CAPTURE 标志 位 不 会 产生 任何 
效果 ， 因 为 它 只 对 捕获 型 括号 有 效 。 

来 看 另 一 个 例子 ， 第 466 页 分 析 股 市 行情 的 例子 : 

$tickers=preg_split('/[\s, ]+/,Sinput); 

如 果 我 们 添加 捕获 型 括号 ， 以 及 PREG _SPLIT_DELIM_CAPTURE 

$tickers=preg_split C/ ([\s, J+) /, $input, -1, 
PREG_SPLIT_DELIM_CAPTURE) ; 结果 $input ”中 的 任何 字符 都 没有 
被 抛弃 ， 它 只 是 切 分 之 后 保存 在 $tickers” 中。 处理 $tickers 数 组 时 ， 你 知 
道 编写 为 奇数 的 元 素 是 "(Ns，]+) 匹配 的 。 这 可 能 很 有 用 ， 如 果 在 回 
用 户 显 示 钳 误 信 息 时 ， 可 以 对 不 同 的 部 分 分 别 进行 处 理 ， 然 后 将 它们 合 
并 起 来 ， 还 原 出 输入 的 字符 串 。 

还 有 一 点 需要 注意 ， 通 过 PREG SPLIT _DELIM CAPTURE 添加 的 
元 系 丰 会 影响 切 分 上 限 。 只 有 在 这 种 情况 下 ， 结 果 数 组 中 的 元 系数 目 才 


可 能 超过 上 限 (如 果 正 则 表达 式 中 的 捕获 型 括号 很 多 ， 则 元 素 就 要 更 
多 ) 。 
结尾 的 未 参与 匹配 的 捕获 型 括号 不 会 影响 结果 数组 。 也 束 是 说 ， 如 
果 一 组 捕获 型 括号 没有 参与 最 终 匹 配 (参见 450 页 ) ， 可 能 会 也 可 能 不 
会 在 结果 数组 中 添加 空 字 符 串 。 如 果 编 写 更 人 靠 后 的 捕获 型 括 写 参与 了 最 
终 史 配 ， 就 会 增加 ， 人 否则 束 不 会 。 请 注意 ， 如 果 使 用 了 
PREG_SPLIT_NO_EMTPY 标志 位 ， 结 果 会 有 变化 ， 因 为 空 字符 串 肯 定 


会 被 抛弃 。 
preg_grep 
(8 FTI 
preg_grep(pattern,input[,flags]) 
参数 简介 


pattern 分 隐 从 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 从 。 

input 一 个 数组 ， 如 果 它 们 的 值 能 够 匹配 pattern， 则 其 值 会 复制 到 返 
回 的 数组 中 。 

flags 非 强制 出 现 ， 此 标志 位 PREG_GREP_INVERT 或 者 是 0。 

返回 值 

一 个 数组 ， 包 含 input 中 能 够 由 pattern 匹 配 的 元 素 〈 如 果 使 用 了 
PREG_GREP_INVERT 标 志 位 ， 则 包括 不 能 匹配 的 元 素 ) 。 

讲解 

preg_grep 用 来 生成 input 数组 的 副本 ， 其 中 只 你 留 了 value fet pL 
配 〈 如 果 使 用 了 PREG_GREP_INVERT 标 志 位 ， 则 不 能 匹配 ) pattern 的 
元 素 。 此 value 对 应 的 key 会 保留 。 来 看 个 简单 的 例子 

preg_grep('^s/',$input); 

它 返 回 $input 数 组 中 的 ， 由 至 日 字符 构成 的 元 系 。 相 反 的 例子 是 : 

preg_grep('/\s/',$input,PREG_GREP_INVERT); 

它 返 回 不 包含 空白 字符 的 元 素 。 请 注意 ， 第 二 个 例子 不 同 于 : 

preg_grep(VA\S+$/,$input); 

因为 后 者 不 包括 空 〈 长 度 为 0) 值 元 素 。 


preg_quote 
使 用 方法 


preg_quote(input [,delimiter]) 

BBS faj JP 

input 和 希望 以 文字 方式 用 作 pattern 参 数 的 字符 串 (二 444) 。 

delimiter 非 强 制 出 现 的 参数 ， 包 售 1 个 字符 的 字符 串 ， 表 示 布 望 用 
在 pattern 参 效 中 的 分 隔 符 。 

iR EJE 

preg_quote 返 回 一 个 字符 串 ， 它 是 input 的 副本 ， 其 中 的 正则 表达 式 
元 字符 进行 了 转 义 。 如 末 指 定 了 分 陋 符 ， 则 分 隔 符 本 喘 也 会 被 转 义 。 

讲解 

如 果 要 在 正则 表达 式 中 以 文字 方式 使 用 某 个 字符 串 ， 可 以 用 内 建 的 
preg_quote 函 数 来 转 义 其 中 可 能 产生 的 正则 表达 式 元 字符 。 如 果 指 定 了 
创建 pattern 时 使 用 的 分 陋 符 ， 字 符 串 中 的 分 隅 符 也 会 被 转 义 。 

preg_quote 是 专门 应 对 特殊 情况 的 函数 ， 在 许多 情况 下 没有 用 ， 不 
Wik BAP I: 
/* H#rASMailSubject, #)BSMailMessage 对 应 主题 */ 
spattern = '/“Subject: \st+ (Re: \s*)*" . preg quote ($MailSubject, '/') . '/mi'; 

如 果 $MailSubject 包 含 下面 的 字符 串 

* x Super Deal * * (Act Now!) 

Hy Jin $pattern HL ae zE 

/\Subject:\s+(Re:\s * ) * \*\ * Super Deal\ * \ * \(Act Now\!\)/mi 

IPE AY DAVE Apres K ži pattern% y - 

MRE EY a TS ERO AR ETE, MARAE A 
WY?) 不 会 转 义 ， 所 以 请 务必 使 用 非 对 称 的 分 隅 符 。 
M BE TAFARN HP BEDRE, MUR H pe F Hx 
AT o 

这 样 说 来 ， 在 把 任意 文本 转换 为 ” PHP ”正则 表达 式 的 问题 上 ， 
preg_quote 并 不 是 完善 的 解决 办 法 。 它 只 解决 了 “文本 到 正则 表达 式 ” 的 
问题 ， 而 没有 解雇 “正则 表达 式 到 pattern 参 数 ” 的 问题 ， 任 何 preg 函 数 都 
需要 这 一 步 。 下 一 贡 给 出 了 解决 办 法 。 


“TRA” PY preg cl 2 


"Missing" Preg Functions 

PHP 内 建 的 preg 了 水 数 已 经 提供 了 繁多 的 功能 ， 但 是 有 时 候 我 仍然 友 
现 它 们 不 够 用 。 一 个 例子 是 我 目 己 开发 的 preg_match (5454) 。 

我 肥 现 ， 夯 一 类 需要 提供 目 己 的 文 持 图 数 的 情形 是 ， 正 则 表达 陈 不 
征 在 程序 内 部 通过 pattern 参 数字 人 符 串 提供 的 ， 而 古来 目 程 序 外 部 〈 例 
如 ， 从 文件 读 入 ， 或 者 是 在 Web 表 蛙 中 提交 )〉 。 下 一 市 我 们 将 会 看 到 ， 
EAEN EIR AATA R R paten 参数 使 用 的 形式 也 很 复 
FE 

同样 ， 在 使 用 这 些 正 则 表达 式 之 前 ， 通 音 都 必须 验证 他 们 的 语法 正 
确 性 。 我 同样 会 讲解 这 些 问 题 。 

与 本 书 中 的 所 有 程序 代码 一 样 ， 下 一 页 
4K: http: //regex.info/. 


HY PK xt FY DAA BY PA i P 


preg_regex_to_pattern 


QO EM AIA SVL ESA B HA CORB EMEC RICA, BH 
过 Web 表单 提交 ) , fEpreg ek BCH (FAI, GD Ze PA im DE oP Bs 
伯 ， 才 能 生成 一 个 preg 函 数 能 用 的 pattern 参 数 。 

问题 所 在 

许多 时 候 ， 把 正则 表达 式 转 换 为 pattern 参 数 只 不 过 是 在 两 端 加 上 和 斜 
mE. RFF EMRAN E [a-z] WEK Y a-z], n AH E 
preg 函 数 的 pattern 人 参数 的 字符 串 。 

如 果 正 则 表达 式 中 包含 用 作 分 隔 从 的 字符 ， 情 况 就 很 复杂 。 例 如 ， 
ENRERE http: / M: ]+)，， 仅 仅 在 两 端 添加 反 斜 线 得 
到 “Ahttp: // (M: ]+) A ， 用 作 pattern 时 ， 结 果 会 是 “Unknown 
modifier/”。 

第 448 页 已 经 介绍 过 ， 这 个 错误 信息 是 因为 字符 串 中 的 前 两 个 和 料 线 
FIFE SVE ET, ZEB? CPE BES PRA ZB BBD 
被 当 作 修饰 从 序列 了 。 

fA RZ IE 

APA AT PIE BE AAR AY RO i AF Pa ea. EPEAT MU STA SU HAZ 
有 出 现 的 分 隔 从 ， 如 果 和 需要 手工 构造 pattern-modifier 字 人 符 串 ， 那 么 这 当 
然 是 推荐 的 办 法 了 。 所 以 我 在 第 444、449 和 450 页 (还 有 许多 ) 的 例子 


中 使 用 {...} 作 为 分 隔 符 。 

要 选 出 正则 表达 式 中 没有 出 现 的 分 隔 符 可 能 并 不 容易 《甚至 不 可 
能 ) ， 因 为 字符 串 中 可 能 包含 所 有 分 隔 符 ， 或 者 你 不 能 预先 知道 需要 处 
理 的 文本 。 在 实际 应 用 正则 表达 式 时 这 需要 特别 关注 ， 所 以 最 简单 的 办 
法 是 使 用 第 二 种 : 选择 一 个 分 隅 从 ， 然 后 对 正则 表达 式 字 符 串 中 出 现 的 
WGA} Wes FF EFT FE X - 

问题 可 能 比 初 看 起 来 要 困难 许多 ， 因 为 你 必须 天 注 某 些 重要 的 细 
节 。 例 如 ， 在 目标 字符 串 末 尾 的 转 义 必须 进行 特殊 处 理 ， 保 证 它 不 会 转 
义 紧 跟 在 后 面 的 分 隔 符 。 

下 面 的 函数 接收 正则 表达 式 字 人 符 串 ， 以 及 可 能 出 现 的 pattern- 
modifier 字符 串 ， 返 回 一 个 可 以 用 于 preg 函 数 的 pattern 字 符 串 。 代 但 中 
难看 的 反 冬 线 〈 正 则 表达 式 和 PHP 子 串 转 义 ) 或 许 是 你 见 过 的 最 复杂 的 
表示 ; 这 上段 代码 并 不 容易 读书 (如果 你 锅 望 补习 PHP 单 引号 字符 串 的 语 
ih, WHE GBA) 。 


1/ 

* 输入 字符 事 形式 的 正则 表达 式 (或 许 是 pattern-modifier FHP), LBIES preg HR 
* 的 字符 事 ， 此 表达 式 包 含 在 分 隔 符 之 内 ,后 面 可 能 还 跟 有 修饰 符 

ny 


function preg regex to pattern (sraw regex, $modifiers = "") 
{ 
/x* 
* 进行 转换 需要 在 pattern 两 端 添加 分 隔 符 (这 里 使 用 科 线 ) 并 添加 修饰 符 
* 必须 转 义 表达 式 内 部 的 分 隔 符 ， 表 达 式 结尾 的 转 义 必须 特殊 处 理 ， 否 则 它 会 转 义 最 后 的 分 隔 符 
* 不 能 盲目 转 义 表达 式 内 部 的 分 隔 符 ， 因 为 表达 式 内 部 可 能 包括 已 经 转 义 的 分 后 
* 例如 ， 如 果 表 达 式 是 !'\/'， 盲目 转 义 得 到 '\\/'， 最 终结 果 是 !/ 八 \//'  ， 这 显然 不 对 
* 


应 当 把 表达 式 分 为 三 类 : 已 转 义 的 字符 、 未 转 义 的 科 线 (需要 处 理 ) 和 其 他 字符 。 
* 还 需要 注意 字符 串 结尾 的 转 义 
*/ 
if (! preg match('{\\\\(|:/|$)}', Sraw regex)) /* BHa'\'REOS H'/' */ 
{ 
/* REACH, RAMAN, BERLE PHBA */ 
$cooked = preg replace('!/!', '\/', $raw regex); 
} 


else 
{ 
/* 用 来 解析 Sraw regex 4 pattern 
* 捕获 型 括号 内 的 两 个 部 分 需要 转 义 */ 
Spattern 一人 


/* Sraw-regex 中 Spattern 的 每 炊 成 功 匹配 都 需要 调用 回调 未 数 
* 如 果 S$matches [1] 不 为 空 ， 返 回转 义 后 的 结果 
* 否则 不 做 修改 直接 返回 */ 


$f = create function('Smatches', ' /* 这 个 长 长 的 
if (empty (Smatches[1])) /* 单 引 号 
return $matches[0]; /* PAPRA 
else /* khit 


return "\\\\" . $matches[1]; /* 代码 
‘)i 
/* 将 Spattern 应 用 到 $raw regex， 得 到 $cooked */ 
scooked = preg replace callback ($pattern, $f, Sraw regex); 
/* 现在 可 以 在 Scooked 两 疡 添加 分 隔 符 了 ， 然 后 附 上 修饰 符 ， 然 后 返回 */ 
return "/Scooked/Smodifiers"; 


} 


每 次 需要 的 时 候 重 新 与 这 个 图 数 太 矿 烦 ， 于 是 我 将 它 封 痛 到 一 个 函 
数 中 “我 希望 它 会 成 为 preg 套 件 中 的 内 建 函 数 ) 。 

有 兴趣 的 读者 不 妨 想 想 函 数 尾部 preg_replace_callback 使 用 的 正则 表 
AK: 它 如 何 工 作 ， 以 及 回调 函数 如 何人 遍历 整个 pattern 字 侍 串 ， 转 义 每 
个 未 转 义 的 斜 线 ， 而 不 修改 已 转 义 的 笠 线 。 


对 未 知 的 Pattern 参 数 进行 语法 检 符 


Syntax-Checking an Unknown Pattern Argument 

FE TEU ZeIA TN vi Ss BAT Za, RIS eE + A preg rA 20 
的 pattern 参 数 了， 但 是 原来 的 正则 表达 式 还 没有 经 过 语法 正确 性 检验 。 

从 例 来 襄 ， 如 果 原 始 的 正则 表达 式 是 ‘类 .txt， 因 为 攻 些 人 希望 使 用 
文件 群 组 功能 (只 4) 而 不 是 正则 表达 式 ， 那 么 preg_regex_to_pattern 返 
回 的 吏 是 /大 .XUV。 这 个 正则 表达 却 当 然 不 合法 ， 所 以 程序 会 及 出 警报 

《如 末 司 用 了 警报 功能 

Compilation failed:nothing to repeat at offset 0 

PHP A AY ERM pattern Z 2V H E IAS TE SE A AIE NS 
数 ， 不 过 我 为 读者 提供 了 一 个 。 

preg_pattern_error 会 对 pattern 参数 进行 人 简单 测试 ， 试 图 使 用 此 正则 
表达 式 在 浮 数 当中 有 一 行 调 用 preg_match。 涵 数 的 其 他 部 分 使 用 关 
注 PHP 的 管理 功能 处 理 preg_match 可 能 显示 的 错误 信息 。 





1/ 
* 如 果 输 入 的 pattern 或 其 中 的 正则 表达 式 参 数 语法 不 正确 ， 输 出 错误 信息 
* 否则 (语法 正确 ) 返回 false。 
my 
function preg pattern error ($pattern) 
{ 
/* 
* 要 判断 pattern 有 是否 有 锁 ， 直 楼 会 试 使 用 它 。 
* 检测 和 捕获 此 错误 却 不 容易 ， 尤 其 是 布 望 获得 友好 提示 ， 而 且 不 修改 全 局 状态 
* 所 以 如 果 打 开 了 “track errors ， 则 保存 Sphp errormsg ,之 后 恢复 它 的 状态 
* 如 果 没 有 打开 ， 则 打开 它 (因为 需要 用 到 )， 完 成 之 后 再 关闭 
a 
if (Sold track = ini get ("track errors") ) 
Sold message = isset(Sphp errormsg) ? Sphp_errormsg : false; 
else 
inl set('track errors’, 1); 


/* 现在 确认 track errors 已 经 打开 */ 


unset (Sphp_errormsg) ; 
@ preg match ($pattern, ""); /* 党 试 使 用 pattern */ 
sreturn value = isset (sphp errormsg) ? $php errormsg : false; 


/* 现在 捕获 了 需要 的 内 容 ， 恢 复 全 局 状态 */ 
if (Sold track) 

sphp errormsg = isset(Sold message) ? Sold message : false; 
else 

ini set('track errors’, 0); 


return $return value; 


AY AS KH LE M Ae IA OE TT Va tor 


Syntax-Checking an Unknown Regex 

XA BR BIE AS A UF AC A Be SR oe BP EU eA GAA a i 
符 也 没有 模式 修饰 符 ) 的 语法 。 如 果 语 法 不 正确 ， 会 返回 对 应 的 错误 信 
已 ， 如 果 语 法 正确 ， 返 回 false。 


/* 

* 如 果 表达 式 语法 错误 ， 返 回 错误 信息 ， 如 果 语法 正确 返回 false 
af 

function preg regex error ($regex) 

{ 


return preg pattern error (preg regex to pattern ($regex) ); 


} 


a VA AS IE M TA 


Recursive Expressions 

preg 引 获 所 属 的 流派 的 大 多 数 方面 部 在 第 3 革 中 有 所 介绍 ， 但 十 此 
wa 
TK o 

序列 '(? R 表示 “在 此 处 递归 应 用 整个 表达 式 ”， 而 ! C2 num) | 
Ae ANTE LEC Mb AAD num 所 对 应 编写 的 捕获 型 括 写 中 的 序列 *”。 命 名 捕 
获 的 括号 则 使 用 '(? P>name) 表示 法 。 

PUL RAS SE. AED RR “tagged dat HF CF 
481) 中 占有 重要 地 位 。 


VU AC ik tia Ss PY EY SC AS 


Matching Text with Nested Parentheses 
ERREA Pe VEC REARS AC AS, Pe IE: 


[ (? . [A () Jee | Ee J= 


这 个 表达 式 匹 配 任意 多 个 双 多 选 分 支 结构 。 第 1 个 多 选 分 支 
MO ]++ 匹配 除 括号 之 外 的 任何 字符 。 因 为 外 面 有 '(? sk, 
这 个 多 选 分 支 要 求 使 用 占有 优先 的 加 号 ， 避 免 “无 休止 匹配 ”( 守 
226) 。 

另 一 个 多 选 分 支 \((? R) \) 才 是 问题 的 关键 。 它 匹配 一 对 括 
号 ， 其 中 可 以 包括 任何 字符 (只 要 括号 的 嵌 套 是 格式 正确 的 ) 。 这 里 
的 “之 间 ” 的 部 分 是 整个 正则 表达 式 希 望 匹配 的 内 容 ， 也 就 是 我 们 可 以 通 
jt C2 R) 直接 递归 使 用 整个 正则 表达 式 的 原因 。 

这 个 表达 式 本 身 可 以 正常 工作 ， 但 如 果 要 添加 任何 字符 ， 请 务必 小 
心 ， 因 为 调用 '(? RO 时 添加 的 任何 字符 同样 会 递归 。 

如 果 使 用 这 个 正则 表达 式 来 校 验 一 个 括号 配对 不 正确 的 字符 串 ， 你 
可 能 希望 在 两 端 加 上 TAS 来 确保 “整个 字符 串 ”"。 这 是 不 对 的 ， 因 为 
添加 的 行 锚 点 会 被 递归 应 用 到 整个 字符 串 之 中 ， 导 致 匹配 失败 。 

递归 引用 一 组 捕获 型 括号 

COR 结构 会 递归 引用 整个 正则 表达 式 ， 但 也 可 以 使 用 C2 
num) 结构 引用 到 其 中 的 子 集 。 它 递归 引用 编号 为 nume 的 捕获 型 括号 


内 的 子 表达 式 ( 注 4) . WEA C? nm) KEY, | (2 0) 就 等 于 
QOR 

我 们 可 以 使 用 这 种 部 分 递归 因 来 解决 前 面 那 一 节 中 出 现 的 问题 : 在 
INI A... S 之 前 ， 我 们 用 一 个 捕获 型 括号 把 正则 表达 式 的 主体 部 分 围 起 
来 ， 然 后 在 以 前 使 用 C? RD 的 地 方 使 用 '(? 1) 。 添 加 捕获 型 括号 
是 为 了 让 '(? 1) 能 够 引用 ， 你 或 许 还 记得 ， 这 就 是 上 一 节 匹 配 嵌 套 
括号 的 表达 式 。 信 ...$。 加 在 这 些 括 号 之 外 ， 这 样 我 们 就 不 会 对 它们 进行 


递归 调用 ， (CEL OE INCI) 5S: 

正则 表达 式 中 下 画 线 的 部 分 是 第 1 组 捕获 型 括号 ， 所 以 每 次 遇 到 
OD ,都 会 重新 应 用 。 

下 面 PHP 代 码 中 的 正则 表达 式 会 报告 Stext 中 的 括号 能 否 配 对 : 


IE (preg matca" | (2: POIRE | vt REH U J” Wy PEeKE) 
echo "text is balanced\n"; 

else 
echo “text is unbalanced\n"; 


通过 命名 捕获 进行 递归 引用 
如 果 需 要 递归 调用 的 目 表 达 式 处 于 命名 捕获 C138) F, WAT DI 
使 用 '(? P>name) 进行 递归 引用 ， 而 不 是 之 前 的 "〈? num) 表示 
VE 使 用 这 个 表示 法 ， 我 们 的 例子 束 成 了 : 
ie > QI 人 OT++N(C(P> stuff)\)) * )$. 
个 表达 式 可 能 看 起 来 很 复兴 ， 用 模式 修饰 从 x 可 以 看 得 更 清楚 一 


° 
INN O 


Spattern = 'f{ 
# 正则 表达 式 从 此 处 开始 ... 


L2H 

# 这 一 组 括号 内 的 所 有 内 容 都 被 命名 为 "stuff." 

ee 

“() ] ++ # 除 括 号 之 外 的 任何 字符 


[ 
| 
vi (2P>stutr) 4) # 开 括 号 ， 更 多 "stuff, "然后 是 闭 括 号 
)* 
) 
> 
# 正则 表达 式 结 
}x'; # 'x' 是 模式 修饰 符 
if (preg match ($pattern; $text) ) 
echo "text is balanced\n"; 


else 
echo "text is unbalanced\n": 


RY AARSHI 

我 会 对 表达 式 中 的 占有 优先 量词 做 最 后 的 补充 。 如 果 外 部 的 
(3 ; ...) 类 ,是 占有 优先 的 ， 内 部 束 个 必 使 用 '[^() J++ o Jy y REE 
这 个 表达 式 进 入 无 休止 匹配 ， 其 中 之 一 (或 者 是 两 者 ) 必须 是 占有 优先 
的 。 如 来 个 能 使 用 占有 优先 量词 和 固化 分 组 C259) ， 则 十 要 去 挥 所 


有 的 量词 (ECOVER). 

这 样 会 降低 效率 ， 但 是 至 少 不 会 进入 无 法 终止 的 匹配 。 要 提高 效 
率 ， 可 以 使 用 第 6 章 介绍 的 “消除 循环 ”的 技巧 ， 得 到 '[ O Jx C2: \ 
C(2R)\) [AQ ]*) *.. 


AS Re [al i) EE VF Yad ZY 


No Backtracking Into Recursion 

preg LE WYRA VA Te ak HY BP PE Ze, “Ee TEA Py DL Ac 
的 所 有 内 容 当 作 国 化 分 组 括 写 匹配 的 内 容 C259) 。 也 残 是 说 ， 递 归 
结构 不 会 部 分 “交还 Cunmatch) ” 某 些 已 经 风 配 的 内 容 来 实现 全 局 轧 配 
(而 是 寻 臻 整个 匹配 失败 〉。 

这 里 认 的 “部 分 * 是 很 竺 要 的 ， 因 为 回溯 时 ， 刻 归 调 用 匹配 的 所 有 文 
本 可 以 作为 一 个 整体 来 交还 。 但 不 容许 回 济 到 未 归 调 用 之 内 的 汞 个 状 


Et 


JLA — 24 REAR y 


Matching a Set of Nested Parentheses 

EXMGAST AL a LEEA SAAT, LERRATU 
配对 称 括号 的 办 法 (其 中 可 能 包含 更 多 的 网 套 括 写 ) : NCO: 
[AD RE R) AV) os 

这 个 表达 去 的 组 成 部 分 与 乙 前 的 一 样 ， 但 是 顺序 安排 略 有 不 同 。 同 
样 ， 如 果 你 希望 把 它 当 作 大 的 正则 表达 式 的 一 部 分 ， 应 该 把 它 包括 在 捕 
区 型 括 写 中 ， 并 且 修 改 "(? R) 来 地 归 地 引用 对 应 的 目 表 达 式 ， 例 如 
(3? 1) (必须 使 用 这 组 捕获 型 括号 对 应 的 编号 ) 。 


PHP Efficiency Issues 

PHP 的 preg 程 序 使 用 的 PCRE 是 经 过 优化 的 NFA 正 则 引擎 ， 所 以 第 4 
到 6 革 介 绍 的 许多 技巧 都 可 以 下 接应 用 。 其 中 包括 对 关键 部 分 进行 性 能 
测试 ， 根 据 实际 数据 而 不 是 从 理论 分 析 来 比较 程 订 的 快慢 。 第 6 章 给 出 
了 PHP 的 性 能 测试 的 例子 (所 234) 。 

如 果 程 序 对 时 间 要 求 很 严格 ， 请 记 住 两 点 ， 回 调 函 数 通常 要 比 模式 
修饰 符 e 更 快 (46S) ， 在 太 长 的 目标 字符 串 中 使 用 命名 捕获 必须 进行 
时 多 的 数据 找 由 。 

程序 运行 中 ， 过 到 正则 表达 式 会 编译， 但 是 PHP 有 一 个 容量 高 达 4 
096 个 正则 表达 式 的 大 型 缓存 (242) ， 所 以 实际 上 ， 特 殊 的 pattern 字 
符 串 只 需要 在 第 一 次 遇 到 的 时 候 编译 。 

模式 修饰 人 符 S 值 得 单独 介绍 : 它 会 “研究 (study) ”一 个 正则 表达 
式 ， 试 图 进行 更 快 的 匹配 ( 它 与 Perl 的 study 函 数 不 相 关 ，Perl 的 study 函 
数 研 究 的 是 目标 字符 串 ， 而 不 是 正则 表达 式 寺 359) 。 


模式 修饰 符 $: “研究 ” 


The S Pattern Modifier:"Study" 

(8 FPR IE FS Ee VRE SU 52, FEAR PD EMREN, 46 
— FART TE) GES) 来 研究 ， 硕 望 这 些 多 从 的 时 间 是 值得 的 。 但 是 ， 也 可 
能 这 样 做 之 后 也 不 会 提升 速度 ， 但 是 茶 些 情况 下 ， 速 度 的 提升 站 与 数据 
RHR H o 

现在 有 民 好 的 标准 来 判断 哪 种 情况 下 此 功能 具有 价值 : 它 是 第 6 章 
所 说 的 开头 字符 组 识别 优化 〈 到 247) 的 增强 。 

首先 要 告诉 你 的 是 ， 除 非 你 希望 对 大 规模 的 文本 应 用 东 个 正则 表 这 
式 ， 人 奋 则 不 太 可 能 市 省 多 少时 间 。 只 有 把 同一 个 表达 式 应 用 a 到 大 规模 的 
文本 ， 或 者 大 量 小 规模 文本 时 ， 才 二 要 考虑 模式 修饰 从 5S。 

不 使 用 模式 修饰 从 S$， 标 准 优化 

来 看 个 简单 的 例子 "< wt) 。 从 这 个 表达 式 中 我 们 可 以 看 出 ， 
每 次 匹配 必须 以 字符 ‘二 ’ 开 涉 。 正 则 引 敬 能够 (preg 套 件 必然 会 这 样 
做 ) 利用 这 一 点 ， 预 先 在 目标 字符 种 中 搜索 “和 志 :， 只 在 这 些 位 症 应 用 完 
整 的 正则 表达 式 《 因 为 匹配 必须 以 过 开头， 在 其 他 位 置 进行 匹配 冬 试 
EPER HW) o 


使 用 简单 预 搜 索 可 以 比 按部就班 应 用 整个 正则 表达 式 快 得 多 ， 原 因 
束 在 于 这 种 优化 。 尤 其 是 ， 和 需要 搜索 的 字 从 在 目标 字符 串 中 出 现 的 次 数 
越 少 ， 优 化 越 明 显 。 同 样 ， 正 则 引擎 判断 第 一 个 字符 匹配 失败 的 工作 量 
越 大 ， 优 化 越 明 显 。 这 种 优化 对 '<i>|</i>>|<b 二 |</b>> text [< 
(w+) ,更 明显 ， 因 为 在 进行 下 一 轮 尝 试 之 前 ， 正 则 引擎 会 答 试 搜索 4 
个 不 同 的 多 选 分 文 ， 这 样 可 以 减少 许多 工作 量 。 

使 用 模式 修饰 从 S 进 一 步 优化 

preg 引擎 足够 有 聪明， 能 把 这 种 优化 应 用 到 大 多 数 正则 表达 式 ， 它 们 
的 匹配 必须 以 某 个 字符 开头 ， 就 像 上 面 的 例子 一 样 。 不 过 ， 模 式 修饰 符 
S 告诉 引擎 ， 对 于 可 能 以 多 个 字符 开头 的 表达 式 ， 必 须 衣 和 完 分 析 正 则 表 
达 式 来 局 用 这 种 优化 。 

这 里 有 几 个 正则 表达 式 的 例子 ， 其 中 有 一 些 在 本 章 中 己 经 出 现 过 ， 
使 用 柑 式 修饰 符 S 的 结 末 如 下 : 











正则 表达 式 可 能 的 开头 字符 
<(\wt) |&(\wt); T 

[Rr]e: Rr 

(Jan|Feb|+::|Dec) \b ADFJMNOS 

(Re: \s*)? SPAM R 3 

\S*, \s* \x09 \x0A \x0C \x0D \x20, 
[&<">] gS 

\r?\n\r?\n \r \n 


模式 修饰 符 $ 没 有 用 处 的 场合 

想 想 在 哪些 情况 下 模式 修饰 符 $ 没 有 用 会 很 有 其 法 : 

e 开 头 有 锚 点 的 表达 式 〈 例 如 入 和 nb ) ， 或 者 一 个 锚 点 紧 跟 全 局 
性 多 选 分 支 。 这 限于 当前 的 实现 ， mb 的 限制 ， 理 论 上 在 未 来 的 某 些 版 
本 中 可 以 去 挥 。 

e 能 够 风 配 空仓 从 的 表达 式 ， 例如 \Sx* o 

e 表 达 式 可 以 从 任何 字符 开始 匹配 (或 者 是 绝 大 多 数字 符 ) ， 例 如 
(2: [AO HAN CC? R)\) ) 大 ， 请 参考 第 475 页 的 例子 。 这 个 
表达 式 能 够 从 除 “) 之 外 的 任何 字符 开始 匹配 ， 所 以 预先 检 查 一 授 几 平 
不 会 去 挥 任何 开始 的 位 置 。 

e 开 头 字 符 只 有 一 种 可 能 的 表达 式 ， 因 为 它们 已 经 进行 了 优化 。 

使 用 建议 

使 用 模式 修饰 符 S 之 后 ，preg 引擎 花 在 预 分 析 上 的 时 间 并 不 会 太 


长 ， 所 以 如 果 你 布 望 对 大 量 的 文本 应 用 正则 表达 式 ， 无 妨 使 用 它 。 如 来 
你 觉得 有 机 会 使 用 ， 潜 在 的 可 能 就 值得 尝试 。 


扩展 示例 


Extended Examples 


用 这 两 个 例子 作为 本 章 的 结束 。 
用 PHP 人 解析 CSV 


CSV Parsing with PHP 
这 里 有 一 个 用 PHP 解 析 CSV GES ar BRE) 的 程序 ， 原 来 的 例子 在 
SOR (S271) 。 这 个 正则 表达 却 使 用 了 占有 优先 量词 C142), m 
不 是 固化 分 组 插 号 ， 因 为 它们 看 起 来 更 清晰 。 首 先 ， 这 是 我 们 将 要 使 用 
的 正则 表达 式 : 
$CSV regex = "I 
"tre |e) 
Crs 
# 或 者 是 双 引 号 字段 ... 
" # 起 始 双 引号 


{ (Paes Cee 3E [ele jew j 
" + 结 束 双 引号 
| $ 。。。 或 者 是 .。。 
if «0 APO ot ey Bw 0 
CL gl ore 


) 


px" Z 


然后 ， 我 们 用 它 来 解析 $CSV 文 件 中 的 一 行 : 


/* 应 用 正则 表达 式 ， 填 充 $all matches */ 


preg match all($csv regex, $line, $all matches); 


/* SResult 用 来 保存 从 $all matches 收集 的 数据 */ 
sResult = array (); 


/* 遍历 每 个 成 功 的 匹配 . . ，*/ 
for ($i = 0; $i < count($all matches[0]); $i++) 
/* 如 果 第 2 组 捕获 型 括号 匹配 了 ， 则 直接 使 用 */ 
if (strlen($all matches[2][$i]) > 0) 
array push(SResult, $all matches[2] [$i]); 
else 
/* EMAMAFK, ARAMREAP ARM MERIT */ 
array push (sResult, preg replace('/""/', '"', $all matches[1] [$1])); 
| 


/* 现在 可 以 使 用 $Result 数组 */ 


检查 tagged data 的 舱 套 正确 性 


Checking Tagged Data for Proper Nesting 

这 个 例 了 于 有 点 复杂 ， 它 用 到 了 许多 有 意思 的 知识 : 检查 XML (或 
者 和 是 XHTML ， 或 者 任何 标记 的 数据 ) 是 否 包 舍 抓 立 的 或 者 错误 匹配 的 
祭 釜 。 我 的 从 法 是 俭 焉 正确 匹配 的 tag， 非 tag 文 本 ， 以 及 目 封 财 
tag (self-closing tag， 例 如 入 bv> 盖 ， 用 XML 的 语言 来 说 台 是 一 个 “ 空 元 素 
tag”) ， 和 硕 望 我 能 找到 整个 字符 串 。 

下 面 是 完整 的 正则 表达 式 : 


Aiie Ar a eiai ea] eale A a e 
a < N a. SJ 


F 能 够 匹配 的 字符 串 不 会 包含 错误 匹配 的 tag〈 和 后 会 给 出 奉 干 告 
WO» 

能 相当 复 林 ， 但 是 如 果 分 解 为 各 个 部 分 ， 束 可 以 掌握 了 。 外 层 
的 va $ 包围 表达 式 的 主体 ， 你 证 在 返回 gwsess 之 前 元 本 整个 目标 
字符 串 。 主 体 包 含 在 一 组 捕获 型 括号 之 内 ， 我 们 马上 会 看 到 ， 这 组 括号 
容许 在 之 后 加 归 引 用 “主体 ”。 


正则 表达 式 的 主体 

正则 表达 却 的 主体 ， 束 是 这 三 个 多 选 分 文 〈 在 正则 表达 式 中 的 下 男 
线 标注 ， 以 便 观 察 ) ， 它 们 包含 在 ' 〈? : ...) 类 + 中 ， 容 许 任意 的 混 
下 这 三 个 多 选 分 文 死 配 的 分 别 是 : tags、 非 tag 文 本 ， 以 及 目 
封闭 tag。 

因为 每 个 多 选 分 文 能 够 匹配 的 文本 之 间 是 没有 证 突 的 〈 也 就 是 说 ， 
如 果 一 个 多 选 分 文 能 够 四 配 ， 男 两 个 束 不 能 匹配 )， 我 知 违 稍 后 的 回 济 
永远 不 会 容许 另 一 个 多 选 分 文 死 配 同 样 的 文本 。 利 用 这 一 点 ， 我 们 可 以 
使 用 占有 优先 的 星 号 ， 提 高 “容许 任何 混合 ”括号 的 匹配 效率 。 它 告诉 正 
则 引擎 ， 不 要 徒 荔 地 回溯 ， 如 果 找 不 到 匹配 ， 残 很 快 出 结果 。 

因为 同样 的 原因 ， 三 个 多 选 分 文 可 以 以 任何 顺序 出 现 ， 我 把 最 可 能 
多 配 的 多 选 分 文 放 在 最 前 面 C260) 。 

现在 逐个 看 这 些 多 选 分 文 : 

第 2 个 多 选 分 文 ” 非 tag 文 本 ”我 从 它 开 始 讲 ， 因 为 '[^ 二 二 ]++ 很 简 
单 。 这 个 多 选 分 支 匹 配 非 tag 文本 。 在 这 里 使 用 占有 优先 量词 可 能 有 点 
多 此 一 举 一 一 外 面 的 '(? : ...) 类 +) 也 是 占有 优先 的 ， 但 是 为 了 安 
全 起 见 ， 我 希望 在 我 知道 不 会 市 来 负面 影响 的 地 方 使 用 占有 优先 量 词 。 

( 通 币 使 用 占有 优先 量词 是 为 了 提高 效率 ， 但 是 它 也 会 改变 匹配 的 语 
意 。 这 种 修改 可 能 有 帮助 ， 不 过 你 必须 清楚 它 的 后 果 号 259) 。 

第 3 个 多 选 分 文 日 封闭 tag 第 3 个 多 选 分 文 <w>] +> PLACA 
封闭 tag， 例 如 二 bv> 和 <img.../>〈 自 封闭 tag 在 后 面 的 尖 括 号 之 前 有 
RRR) 。 与 之 前 一 样 ， 占 有 优先 量词 可 能 有 点 多 余 ， 但 它 肯 定 不 会 带 
来 负面 影响 。 

第 1 个 多 选 分 支 ”一 对 匹配 的 tags。 最 后 我 们 来 看 第 1 个 多 选 分 支 : 


<(\wtt) [^>] *+ (2<!/)> 
Sires ee? (2 4) <\2>, 


这 个 子 表达 式 的 第 一 部 分 〈 以 下 男 线 标注 ) DL ACIP SK Atag, H 
“QWw++) ,， 也 束 是 整个 正则 表达 式 的 第 2 组 捕获 型 括号 《在 \w++ 中 
使 用 占有 优先 量词 是 很 重要 的 ， 我 们 将 会 看 到 ) 匹配 tag 名 称 。 

| (3? 二 ! /) eae Mr C133) ， 确 体 没 有 匹配 斜 
线 。 我 们 把 它 放 在 匹配 开头 tag 的 子 表 达 式 中 的 ' 盖 之前， 确保 没有 匹配 
自封 闭 tag， 例 如 过 hv>〈 我 们 已 经 看 到 ， 上 自封 闭 的 tag 由 第 3 个 多 选 分 
支 处 理 ) 。 

在 开头 taglie), | C? 1) 会 递归 地 应 用 到 第 一 组 捕获 型 括号 
内 的 子 表 达 式 。 它 是 之 前 提 到 的 “主体 ”， 也 就 是 一 块 只 包含 对 称 tag 的 文 


本 。 它 匹配 之 后 应 该 匹配 对 应 的 结尾 tag (closing tag) ， 就 是 这 个 多 选 
分 文 的 第 一 部 分 匹配 的 〈tag 的 名 字 捕 获 到 第 二 组 捕获 型 括号 ) 。 KA 
> FRAN '</ 确保 它 是 一 个 结尾 tag，\2 > 中 的 反 向 引用 确保 是 一 个 
正确 的 结尾 tag。 

如 果 是 检查 HTML 或 者 其 他 tag 名 不 区 分 大 小 写 的 数据 ， 请 在 正则 表 
达 式 之 前 添加 '(? i) ,或 者 使 用 模式 修饰 符 i。 

IAT 

占有 优先 量词 

关于 第 1 个 多 选 分 支 ' 过 (w++) [人 A>]x+(? <!) > 中 的 
\wtt 的 占有 优先 ， 我 希望 多 说 几 句 。 如 果 流 派 的 功能 不 够 强大 ， 不 能 
使 用 占有 优先 量词 或 者 固化 分 组 139) ， 我 会 在 这 个 多 选 分 支 的 
(w+) 之 后 加 上 \b: 1< (wt) \b[A>]* (? <!) >o 

\b 很 重要 ， 它 能 够 俘 止 (w+) WILE, wan, ‘<link>...</li 
> 中 第 一 个 袜 :的 匹配 。 这 样 会 将 mk 单独 留 在 捕获 型 括号 外 面 ， 导 致 
后 面 的 反问 引用 "2 引用 的 tag 名 不 完整 。 

正常 情况 下 这 些 都 不 会 发 生 ， 因 为 \w+ 是 逻 配 优先 的 ， 会 匹配 整个 
tage AIM, BRIE AIA SUDA Bl BREA RIN CASH, EDX 
MERK, fA PAY HS Ee w 匹配 不 完整 的 tag 名 ， 例 如 ‘<link 
>... <i>’. Nb 能 解决 这 个 问题 。 

谢 天 谢 地 ，PHP 的 强大 的 preg 引 擎 文 持 占有 优先 量词 ， 使 用 
“QWw++) 与 附加 \b 的 意义 一 样 : 不 容许 回调 切割 tag 名 ， 但 是 效 率 更 
[FJ o 

真实 世界 的 XML 
真实 世界 的 XML 比 简单 的 匹配 tag 要 复杂 得 多 。 我 们 还 必须 考虑 
XML 注释 、CDATA 部 分 、 处 理 指令 和 其 他 。 

于 加 对 XML 注释 的 文 持 是 很 容易 的 ， 只 需要 增加 第 4 个 多 选 分 文 ， 
<! --. 大? -> ， 请 务必 使 用 '(? s) 或 者 是 模式 修饰 符 S， 这 样 点 号 
Be fe DO AC HRT FF o 

同样 ，CDATA ”部 分 的 格式 是 二 ! [CDATA[...]>， 可 以 用 另 一 个 
ZTL <! CDATANA[. 大 ? J> KARE, ‘<? xml'version= " 1.0 
"2? > 之 类 的 处 理 指令 需要 再 添加 一 个 多 选 分 文 : |<\? .*? \? 

Pue 
entity 声明 的 形式 是 二 ! ENTITY...>, A UH'<! ENTITY\b.* ? 
> 来 处 理 。XML 中 有 许多 类 似 的 结构 ， 他 们 中 的 大 部 分 可 以 用 '=<! 


[A-Z].x? > 取代 ‘二! ENTITY\b.* ? > 来 处 理 。 
虽然 还 有 些 问 题 ， 不 过 上 面 的 办 法 应 该 能 够 应 付 绝 大 多 数 XML。 
下 面 是 完整 的 PHP 代 但 : 


XM] regex = '{ 
a 
[Pe INP [Slee (P> CFL) gaa # 匹配 一 组 tag 
| [Sse] # 非 tag 字符 
| <\w[*>] *+/> # 自封 闭 tag 
| <!--.*?--> # 注视 
| <!\ [CDATA\ [ .*?] ]> # cdata 数据 
| AT RPL # 处 理 指令 
| <!(A-Z].*?> # Entity 声明 之 类 
te 
) $ 
}SX :; 


if (preg match($xml regex, $xml_ string) ) 
echo "block structure seems valid\n"; 
else 
echo "block structure seems invalid\n"; 


HTML 

常见 的 情况 是 ， 真 实 世 界 的 HTML 有 各 种 各 样 的 问题 ， 这 样 的 检测 
几乎 没有 实用 价值 ， 例 如 孤立 元 系 或 者 失 配 的 tag， 以 及 独立 出 现 
的 “天 :和 “> 字符。 不 过 ， 即 使 是 正确 配对 的 HIML 也 有 些 特殊 情况 我 们 
WY» ZAR EH, YEM <script>tag. 

HTMIL 注释 规 范 与 XML 注释 一 样 : <! --. 火 ? -> ， 使 用 模式 修 

TIFFS o 

<script> Mba eH, HIKERS < RSS’, AEA 
VF <script... > 和 过/script> 之 间 出 现任 何 字符 。 我 们 可 以 这 样 处 理 : < 
script\b[A>]* >.* ? </script>. AN, DEREI EI 
的 “过 :和 “> 的 字符 的 Script 序列 会 被 第 1 个 多 选 分 文 捕获 ， 因 为 它 走 的 也 
是 “中 配 的 一 组 tag” 的 僚 路 。 如 果 二 script 过 不 包含 任何 其 他 字 人 和 从， 第 1 个 
多 选 分 文 会 失败 ， 这 些 文本 留 给 新 增 的 多 选 分 文 。 

这 里 是 HTML 版 本 的 PHP 程 序 : 


shtml regex = '{ 


(2: <(\wtt) [%>]*+ (2<!/)> (91) </\2> 


| [<>] ++ 
| 有 
| <p. Bae 
| <seript\b[*>] *>..*2</seript> 
| Bick 
) $ 
FIORI 


if (preg match ($html regex, $html string)) 
echo "block structure seems valid\n"; 


else 


echo "block structure seems invalid\n"; 


# 匹配 一 对 tag 
# 非 tag XH 
# 自封 闭 tag 
# 汪 释 

t script AS 


Index 
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该 公司 信 负 盛名 的 瑞 文 经 典 技术 专 阁 。 

O’Reilly Media，Inc. 是 世界 上 在 Unix、X、Internet 和 其 他 开放 系统 
图 书 领域 共有 领导 地 位 的 出 版 公司 ， 同 时 也 是 在 线 出 版 的 先锋 。 

从 最 畅销 的 《The Whole Internet User’s Guide&Catalog) WAZ 
公共 图 书馆 评 为 20 世 纪 最 备 要 的 50 本 书 之 一 ) 到 GNN (最 早 的 Internet 
门户 和 商业 网 站 ) ， 再 到 WebSite〈 第 一 个 桌面 PC 的 Web 服 务 器 软 
件 ) , O’Reilly Media，Inc. 一 直人 处 于 Internet 发 展 的 最 前 沿 。 

许多 书店 的 反馈 表明 ，O’Reilly Media，Inc. 是 最 稳定 的 计算 机 图 书 
出 版 两 一 一 每 一 本 书 都 一 版 再 版 。 与 大 多 数 计算 机 图 书 出 版 疝 相 比 ， 
O’Reilly Media，Inc. 具 有 深厚 的 计算 机 专业 背景 ， 这 使 得 O’?Reilly 
Media，Inc. 形 成 了 一 个 非常 不 同 于 其 他 出 版 商 的 出 版 方针 。O’Reilly 
Media，Inc. 所 有 的 编辑 人 员 以 前 部 是 程序 员 ， 或 者 是 项 尖 级 的 技术 专 
家 。O’Reilly Media，Inc. 还 有 许多 固定 的 作者 群体 他 们 本 喘 是 相关 
领域 的 扩 术 专家 、 咨 询 专 家 ， 而 现在 编写 香 作 ，O?'Reilly Media，Inc. 依 
靠 他 们 及 时 地 推出 图 书 。 因 为 O'Reilly Media，Inc. 紧 密 地 与 计算 机 业界 
联系 着 ， 所 以 O’Reilly Media，Inc. 知 道 市 场 上 真正 需要 什么 图 书 。 








